大資料處理

大資料處理的流程主要包括以下四個環節：採集、匯入（預處理）、統計（分析）、挖掘，下面針對這四環節進行簡單闡述。

大資料處理之一：採集

在大資料的採集過程中，其主要特點和挑戰是併發數高，因為同時有可能會有成千上萬的使用者來進行訪問和操作，比如火車票售票**和**，它們併發的訪問量在峰值時達到上百萬，所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。

大資料處理之二：匯入/預處理雖然採集端本身會有很多資料庫，但是如果要對這些海量資料進行有效的分析，還是應該將這些來自前端的資料匯入到乙個集中的大型分布式資料庫，或者分布式儲存集群，並且可以在匯入基礎上做一些簡單的清洗和預處理工作。也有一些使用者會在匯入時使用來自twitter的storm來對資料進行流式計算，來滿足部分業務的實時計算需求。

匯入與預處理過程的特點和挑戰主要是匯入的資料量大，每秒鐘的匯入量經常會達到百兆，甚至千兆級別。

大資料處理之三：統計/分析統計與分析主要利用分布式資料庫，或者分布式計算集群來對儲存於其內的海量資料進行普通的分析和分類彙總等，以滿足大多數常見的分析需求，在這方面，一些實時性需求會用到emc的greenplum、oracle的exadata，以及基於mysql的列式儲存infobright等，而一些批處理，或者基於半結構化資料的需求可以使用hadoop。

統計與分析這部分的主要特點和挑戰是分析涉及的資料量大，其對系統資源，特別是i/o會有極大的占用。

大資料處理之四：挖掘

與前面統計和分析過程不同的是，資料探勘一般沒有什麼預先設定好的主題，主要是在現有資料上面進行基於各種演算法的計算，從而起到**（predict）的效果，從而實現一些高階別資料分析的需求。比較典型演算法有用於聚類的

kmeans、用於統計學習的svm和用於分類的*****bayes，主要使用的工具有hadoop的mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很複雜，並且計算涉及的資料量和計算量都很大，常用資料探勘演算法都以單執行緒為主。

整個大資料處理的普遍流程至少應該滿足這四個方面的步驟，才能算得上是乙個比較完整的大資料處理

大資料處理

大資料處理隨筆

大資料處理方案

jdbc大資料處理

大資料處理

大資料處理隨筆

大資料處理方案

jdbc大資料處理

相關推薦