初識大資料

大資料是指對巨量不同種類資料（可達pb級別數量）進行智慧型的收集、儲存、挖掘分析，面向具體的行業應用，把大量離散的價值密度低的資料加工形成具有高商業價值的資料處理技術，以幫助企業機構更準確地做出趨勢判斷、進行精確營銷和實現精細化運營等。5g的通訊即將來到，資料**式增長，以及資料處理的實時性要求越來越高，大資料處理系統越來越複雜。

在2023年，為了解決大規模資料處理的三大難題，工程師開始構建各種定製化資料處理系統：

①　資料處理（dataprocessing）：受限於硬體效能，大規模資料處理特別困難；

②　伸縮性（scalabilityis）：對於資料量的不確定性，讓處理程式在不同規模的集群上執行，或者讓程式根據計算資源狀況自動排程執行；

③　容錯（fault-toleranceis）：讓處理程式在由廉價機器組成的集群上可靠地執行。

這些困難促使mapreduce誕生。mapreduce將處理抽象成map+shuffle+reduce的過程。

由此，在2023年hadoop誕生發展成為能夠處理海量web資料的分布式系統為此。2023年，谷歌發起了flume專案。flume將資料處理過程抽象成計算圖，引入的管道（pipeline）、動態負載均衡和流語義思想。

hadoop在2023年1月正式成為apache的頂級專案；此後，相關大資料生態體系快速形成，並由此衍生出一系列大資料處理的理論和與之對應的大資料處理框架：從批處理到流處理，相繼產生了很多流資料處理平台，各大網際網路公司現在都在廣泛使用，如storm ， spark，flink。

大資料技術應用於大資料系統一系列環節。

大資料系統需要從不同應用和資料來源（例如網際網路、物聯網、應用、手機等）進行離線或實時的資料採集、傳輸、分發。大資料系統的資料接入需要提供豐富的資料介面、讀入各種型別資料。

但是不規範的資料接入會大大增加後續的維護及使用代價。在資料接入時會面臨資料孤島現象，也就是多個事業部，每個事業部都有各自資料，事業部之間的資料往往都各自儲存，各自定義；資料質量不穩定；資料分析的實效性不能得到保證；資料安全不能保證；使用資料成本很高。

我們有以下方法：1）建立資料中臺，統一資料接入儲存，以及統一規範接入方式；2）進行資料校驗和格式轉換；3）對資料進行實時分析和離線分析；4）進行資料治理和許可權控制；5）使用聯機分析處理（olap）系統查詢。

在大資料開發流程中，資料預處理佔到了非常大的比重。資料的質量，直接決定了模型的**和泛化能力的好壞。它涉及很多因素，包括：準確性、完整性、一致性、時效性、可信性和解釋性。資料預處理的主要步驟分為：資料清理、資料整合、資料規約和資料變換。

資料清理：在真實資料中，我們拿到的資料可能包含了大量的缺失值，可能包含大量的噪音，也可能因為人工錄入錯誤導致有異常點存在，非常不利於演算法模型的訓練。我們要處理缺失值、離群點以及雜訊也就是變數的隨機誤差和方差。

資料整合：將多個資料來源中的相關資料結合存放至乙個一致的資料集中。

資料規約：將資料維度規約化，用於資料分析的資料可能包含數以百計的屬性，其中大部分屬性與挖掘任務不相關，是冗餘的。維度歸約通過刪除不相關的屬性，來減少資料量，並保證資訊的損失最小。維度變換是將現有資料降低到更小的維度，也就是合併一些特徵，生成新的特徵向量，盡量保證資料資訊的完整性。

資料變換：包括對資料進行規範化，離散化，稀疏化處理，達到適用於挖掘的目的。

隨著大資料系統規模的擴大、資料處理和分析維度的提公升、以及大資料應用對資料處理效能要求的不斷提高，資料儲存技術得到持續的發展與優化。

基於mpp架構的新型資料庫集群

採用shared nothing架構，結合mpp架構的高效分布式計算模式，通過列儲存、粗粒度索引等多項大資料處理技術，重點面向行業大資料所展開的資料儲存方式。具有低成本、高效能、高擴充套件性等特點。常見的mpp資料庫有greenplum、vertica、sybase iq、td aster data。

基於hadoop的技術擴充套件和封裝

hadoop是針對傳統關係型資料庫難以處理的資料和場景（針對非結構化資料的儲存和計算等），利用hadoop開源優勢及相關特性（善於處理非結構、半結構化資料、複雜的etl流程、複雜的資料探勘和計算模型等）。伴隨著技術進步，其應用場景也將逐步擴大，目前最為典型的應用場景：通過擴充套件和封裝 hadoop來實現對網際網路大資料儲存、分析的支撐，其中涉及了新興的nosql：hbase、cassandra、redis、mongodb；全文檢索框架：es、solr等。

不同大資料應用對資料處理需求各異，導致產生了如離線處理、實時處理、互動查詢、實時檢索等不同資料處理方法。

離線處理是指對海量資料進行批量的處理和分析，對處理時間的實時性要求不高，但資料量巨大、占用計算及儲存資源較多。hadoop分布式儲存+分布式運算的框架，可以對海量資料進行統計分析。

實時處理是指對實時資料來源(比如流資料)進行快速分析，對分析處理的實時性要求高，單位時間處理的資料量大，對cpu和記憶體的要求很高，例如微博熱點，實時投票pk，可以使用流平台處理框架如spark、redis、storm、flink。

互動查詢是指對資料進行互動式的分析和查詢，對查詢響應時間要求較高，對查詢語言支援要求高，一般是使用sql hive。

實時檢索是指對實時寫入的資料進行動態的查詢對查詢響應時間要求較高，並且通常需要持高併發查詢。

近年來，為滿足不同資料分析場景在效能、資料規模、併發性等方面的要求，流計算、記憶體計算、圖計算等資料處理技術不斷發展問時，人工智慧的快速發展使得機器學習演算法更多的融入資料處理、分析過程，進一步提公升了資料處理結果的精準度、智慧型化和分析效率。

資料視覺化是大資料技術在各行業應用中的關鍵環節。通過直觀反映出資料各維度指標的變化趨勢，用以支撐使用者分析、監控和資料價值挖掘。資料視覺化技術的發展使得使用者借助圖表、2d\3d檢視等多種方式，通過自定義配置視覺化介面實現對各類資料來源進行面向不同應用要求的分析。

資料治理涉及資料全生存週期端到端過程，不僅與技術緊密相關，還與政策、法規、標準、流程等密切關聯。從技術角度，大資料治理涉及到元資料管理、資料標準管理、資料質量管理、資料安全管理等多方面技術。當前，資料資源分散、資料流通困難(模型不統

一、介面難對接)應用系統孤立等問題已經成為企業數位化轉型最大挑戰之一。大資料系統需要通過提供整合化的資料治理能力、實現統一資料資產管理及資料資源規劃。

大資料系統的安全與系統的各個元件、及系統工作的各個環節相關，需要從資料安全(例如備份容災、資料加密)、應用安全(例如身份鑑別和認證)、裝置安全(例如網路安全、主機安全)等方面全面保障系統的執行安全。同時隨著資料應用的不斷深入，資料隱私保護(包括個人隱私保護，企業商業秘密保護、****保護)也已成為大資料技術重點研究方向之一。

1.中國信通院：2023年大資料***

2.資訊科技研究中心：2020大資料標準化***

3.資料探勘：概念與技術韓家煒

初識大資料

初識大資料

初識大資料入門

大資料初識筆記

初識大資料

初識大資料

初識大資料入門

大資料初識筆記

相關推薦