《實戰大資料》前言

2022-05-01 22:18:13 字數 1493 閱讀 3230

《實戰大資料》

「資料是重要資產」已成為大家的共識,眾多公司爭相分析、挖掘大資料背後的資訊財富。本書在這個背景下,對目前大資料及其相關技術的發展進行總結,理論聯絡實踐,既不缺乏理論深度又具有實用價值。

前言隨著雲時代的來臨,大資料(big data)也吸引了越來越多的關注。大資料目前已經成為it領域最為流行的詞彙,其實它並不是乙個全新的概念。早在2023年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,明確提出「資料就是財富」這一觀點,並將大資料熱情地讚頌為「第三次浪潮的華彩樂章」。直到現在,大資料在**決策部門、行業企業、研究機構等得到了廣泛的應用,並實際創造了價值。

大資料分析相比於傳統的資料倉儲應用,具有資料量大、查詢分析複雜等特點。本書對目前大資料技術的發展進行了總結,試圖講清楚資料獲取,資料結構,資料整合,資料分析、組織、抽取和建模,資料分析結果的呈現等問題,為讀者提供在實踐中解決遇到的大資料問題的思路和方法。

本書分為12章,每章內容概要如下:

第1章從大資料的歷史與發展、大資料的定義、大資料的研究內容、大資料問題在國內外**、公司和大學的研究現狀等方面進行論述,為這一新興概念勾勒出乙個雛形。

第2章介紹了資料獲取與儲存技術的概念以及一些流行的工具與實現。

第3章介紹了資料抽取和清洗。資料抽取作為資料處理的第一步,具有至關重要的作用。資料清洗是構建資料倉儲和知識發現的必要因素。

第4章介紹了大資料提煉價值的關鍵步驟——資料整合,包括各大公司對資料整合技術的定義、用處、發展歷程、分類、資料整合技術的研究現狀、各大公司實現資料整合技術的工具,以及在大資料背景下的資料整合技術的特點等等。

第5章介紹了海量資料的查詢、分析與建模技術。包括資料查詢、分析和建模的各項技術的概念、發展歷史、工具等,使得讀者對於海量資料查詢、分析與建模有更進一步的了解。

第6章介紹了本章將給出乙個輿情監控系統的異構資料採集平台部分為例項,介紹osgi的基本構建方法,並圍繞該異構資料採集平台的設計與實現,對osgi在構建動態部署的可伸縮的異構資料採集平台中的設計和使用進行介紹。

第7章採用hbase實現海量小型xml文件的儲存與檢索,結合實際問題背景,對該系統的功能性需求和非功能性需求進行了詳細描述,逐步深入分析,給出系統的概要設計及詳細設計,並給出系統關鍵點的實現。

第8章針對現有一些演算法無法處理大規模網路的問題,在隨機遊走演算法(randommovement strategy)和仿射傳播聚類演算法(affinity propagation clustering algorithm)的基礎上,借助mapreduce程式設計模式,將兩種演算法遷移到雲平台上,分別給出隨機遊走演算法和仿射傳播聚類演算法的並行化。

第9章介紹了異種資料來源資料的統一儲存與轉換技術。

第10章主要介紹了一種基於微博的**市場**系統,並對該系統的應用背景和相關技術做了相應的介紹,分析了系統的需求分析與總體設計思路,最後給出了詳細的設計與實現方案。

第12章全面介紹了乙個基於hdfs(hadoop distributed file system)的雲檔案系統,為使用者進行資料儲存提供乙個例項,實現了面向高速區域網網路服務的雲計算分布式檔案系統,並提供了網盤應用的主要功能。

大資料 hadoop 01 前言

hadoop 能做的事情是對歷史的資料進行分析和處理。資料 data,資訊 結構化資料 database spreadsheet file in record format 非結構化資料 半結構化資料 xml docs logs click stream equipment 完全非結構化資料 web...

ExtJS實戰系列 前言

呵呵,好久沒寫文章了。為了適應外面企業的需求,班上第三階段的專案採用 extjs dwr struts spring hibernate oracle 的組合,dwr,ssh和 oracle 資料庫已經在專案中用了很長時間,倒沒有什麼大的問題,但 extjs 的引入卻是有些風險,因為它的精通和靈活應...

ExtJS實戰系列 前言

呵呵,好久沒寫文章了。為了適應外面企業的需求,班上第三階段的專案採用extjs dwr struts spring hibernate oracle的組合,dwr,ssh和oracle資料庫已經在專案中用了很長時間,倒沒有什麼大的問題,但extjs的引入卻是有些風險,因為它的精通和靈活應用並不是一朝...