大資料處理點滴筆記

自我頭腦風暴，說得對與錯都請指點，後續補充。

當下三大技術熱點：高併發、分布式、大資料（也許，還有很多，這只是自我修煉的三個目標）。

大資料處理系統有幾點要求：

低延遲高效能

分布式可擴充套件（更多的要求是可橫向擴充套件）

容錯現在用的比較多的就是hadoop、storm。

hadoop

依賴於hdfs

磁碟延時較高（可精確到小時）

統計結果存在hbase

storm

依賴於記憶體計算

延時較短（可以精確到10秒）

統計結果存在mysql

資料收集，交給kafka

kafka是linkedin開源的一款分布式的發布-訂閱訊息系統，它具有：

通過o(1)的磁碟結構持久化儲存訊息，即使tb級的資料也能保持長期穩定；

高吞吐率：即使非常普通的硬體，kafka也能支援每秒數十萬的訊息；

支援通過kafka伺服器和消費集群來分割槽訊息；

支援hadoop並行載入；

storm參考：

暫做記錄

大資料處理

大資料處理的流程主要包括以下四個環節採集匯入預處理統計分析挖掘，下面針對這四環節進行簡單闡述。大資料處理之一採集在大資料的採集過程中，其主要特點和挑戰是併發數高，因為同時有可能會有成千上萬的使用者來進行訪問和操作，比如火車票售票和它們併發的訪問量在峰值時達到上百萬，所以需要在採集...

大資料處理隨筆

1.mssql當資料庫資料超過1000萬的時候超時是正常的，所以當表資料到1000萬時候注意delete 2.今天遇到資料庫時間格式2014021000 當然是int型別哦 3.聯合索引使用開始時間與結束時間這樣一起查詢的要建成索引 4.訂閱資料庫，只可以查詢操作，這樣的話可以在這個表上面建立索引...

大資料處理方案

假設目前有一千萬個記錄這些查詢串的重複度比較高，雖然總數是1千萬，但如果除去重複後，不超過3百萬個。乙個查詢串的重複度越高，說明查詢它的使用者越多，也就是越熱門。請你統計最熱門的10個查詢串，要求使用的記憶體不能超過1g。2 32為40億多，所以給定乙個數可能在，也可能不在其中這裡我們把40億個...

大資料處理點滴筆記

大資料處理

大資料處理隨筆

大資料處理方案

相關推薦