大資料全系技術概覽

2021-09-24 17:40:11 字數 3285 閱讀 3268

大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

在維克托·邁爾-捨恩伯格及肯尼斯·庫克耶編寫的《大資料時代》中大資料指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有資料進行分析處理。大資料的5v特點(ibm提出):volume(大量)、velocity(高速)、variety(多樣)、value(低價值密度)、veracity(真實性)。

醫療/健康

電商**、天貓、京東、亞馬遜

精準銷售

對使用者消費全過程資料進行分析,掌握使用者基本屬性、購買能力、行為特徵、社交特徵、心裡特徵和興趣偏好等多方面資訊。

商家和**商決策支援。

提供具有高度時效性的行業平均資料、市場需求變化、產業上下游動態等市場資訊,幫助商家和**商分析運營狀態,**銷售和使用者趨勢,並提供針對性的運營優化策略;

平台運營優化

通過大資料分析為管理層以及各級運營管理人員提供資料分析和決策支援服務。

語音服務

科大訊飛、雲知聲、思必馳、捷通華聲;

廣告營銷

億讚普、智子雲、秒針系統、品友互動、精碩科技、集奧聚合、締元信、

金融影視/娛樂

作業通、作業幫、學霸君

人力資源

搜前途、哪上班、e成招聘、望才招聘、內聘網、人人獵頭

旅遊去哪兒、好巧網、馬蜂窩、智遊啦、攜程

地理資訊服務

交通/物流

航旅縱橫、飛常準、途志、車來了、北京匯通天下物聯科技、快的打車、美的空調、快逸行、九五智駕

房地產萬科地產、鏈家地產、易遨中國、萬達地產

企業應用

企業有東方國信、亞信、金蝶、用友、神州數碼

輿情

磁碟儲存

hdfs、hbase、s3、cassandra、mongodb、redis

記憶體儲存

alluxio 、redis

資料分析

spark(sql、streaming、mllib、graphx)、storm、mapreduce、mahout、hive、pig

分步式協調服務

zookeeper

集群系統監控

cdh-cms, metrics, grafana、ambari

訊息匯流排

kafka、activemq、apollo、 redis

索引系統

solr、lucene、elasticsearch

資料採集

flume、kafka connector、sqoop、socket、sftp、mina

實時處理

spark streaming、kafka streams、storm、samza、flink

資料儲存

hdfs、hbase、s3、cassandra、mongodb、redis、solr、elasticsearch

離線處理

spark sql、hive、map reduce、pig、impala

互動式查詢

drill、presto、kylin

資料展現

echarts、tableau、d3js

1、hadoop是apache開源組織的乙個分布式計算框架,提供了乙個分布式檔案系統 (hdfs)、mapreduce分布式計算及統一資源管理框架(yarn)的軟體架構。

5、mongodb 是乙個高效能,開源,無模式的文件型資料庫,它在許多場景下可用於替代傳統的關係型資料庫或鍵/值儲存方式。mongodb不支援sql,但有自己功能強大的查詢語法。mongodb使用bson作為資料儲存和傳輸的格式。bson是一種類似json的二進位制序列化文件,支援巢狀物件和陣列。

許多情況下可以代替傳統關聯式資料庫;

代替鍵/值儲存方式。

6、redis是乙個開源的使用ansi c語言編寫、支援網路、可基於記憶體亦可持久化的日誌型、key-value資料庫,並提供多種語言的api。從2023年3月15日起,redis的開發工作由vmware主持。從2023年5月開始,redis的開發由pivotal贊助。

7、apache spark 是專為大規模資料處理而設計的快速通用的計算引擎。spark是uc berkeley amp lab (加州大學伯克利分校的amp實驗室)所開源的類hadoop mapreduce的通用並行框架,spark,擁有hadoop mapreduce所具有的優點;但不同於mapreduce的是——job中間輸出結果可以儲存在記憶體中,從而不再需要讀寫hdfs,因此spark能更好地適用於資料探勘與機器學習等需要迭代的mapreduce的演算法。

spark 是一種與 hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 spark 在某些工作負載方面表現得更加優越,換句話說,spark 啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。

spark 是在 scala 語言中實現的,它將 scala 用作其應用程式框架。與 hadoop 不同,spark 和 scala 能夠緊密整合,其中的 scala 可以像操作本地集合物件一樣輕鬆地操作分布式資料集。

8、storm是乙個分布式的、容錯的實時計算系統。使用storm進行實時大資料分析。

9、flink 是可擴充套件的批處理和流式資料處理的資料處理平台,設計思想主要**於hadoop、mpp資料庫、流式計算系統等,支援增量迭代計算。

10、alluxio a memory speed virtual distributed storage. alluxio是乙個高容錯的記憶體分布式檔案系統,允許檔案以記憶體的速度在集群框架中進行可靠的共享。典型特點就是加速讀寫資料的速度。

11、elasticsearch是乙個基於lucene的搜尋伺服器。它提供了乙個分布式多使用者能力的全文搜尋引擎,基於restful web介面。其典型特點是全文快速檢索。

大資料技術全解之二

大資料技術全解 國內首本講清大資料系統研發全流程圖書,作者是乙個我敬佩的人,敢於做非常具有挑戰性的工作。寫書本來不是乙個容易的事情,寫一本關於最新的技術的書,更加的不容易。除了作者自身需要有很高的技術造詣,對書中相關的技術理解足夠深外,還需要作者能夠有很強的表達能力和說服能力,把最新的技術的奧秘清晰...

大資料技術

如果沒有乙個好的開始,不妨試試乙個壞的開始吧。因為乙個壞的開始,總比沒有開始強。而完美的開始,則永遠都不會來到。資料採集傳輸主要技術 分為兩類,一類是離線批處理 另一類是實時資料採集和傳輸 離線批處理最有名的是sqoop 實時資料採集和傳輸最為常用的是flume和kafka sqoop 一款開源的離...

大資料技術

前言 學習了好久了,也沒有系統的整理過這些東西,感覺再這麼下去算是荒廢了,懶惰加上不思進取就這樣子過去大半年了,而且最近總是把技術聖地變成自己的宣洩的地方哈哈,隨便寫的啥都亂髮,打擾到各位了,在這裡給各位道歉了 經過乙個比賽感覺自己也學得不紮實,自從非正常退役acm以後,就距離乙個acmer越來越遠...