一、大資料的4v特性
1、volume:體量巨大
2、variety:資料型別繁多
3、value:價值密度低
4、velocity:處理速度快
二、大資料處理需要解決的問題
1、儲存
2、計算
3、挖掘
4、展現
三、大資料處理涉及的6個方面
1、資料入口
資料傳輸和同步一般採用基於時間線的實時同步和批量同步二種方案。
實時同步:linkedin的databus+kafaka、**的timetunnel。
批量同步:facebook的scribe、cloudera的flume、hadoop的chukwa。
2、資料的分散式儲存
基於核心層:ceph、glusterfs
基於使用者層:hdfs、gfs
業務層:hbase(列儲存)、mongodb(文件資料庫)、cassandra(k/v型資料庫)、neo4j(圖形資料庫)
facebook已經放棄cassandra,轉而開始使用hbase了。
3、資料計算
離線計算:hadoop以及在其之上的hive/pig。
4、資料探勘
基於hadoop的mahout、rhadoop
5、資料視覺化
facebook 的insights
6、綜合管理平臺
precog的labcoat