Hadoop系列001 大資料概論

2022-09-02 14:39:15 字數 1464 閱讀 5053

大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

最小的基本單位是bit,按順序給出所有單位:bit、byte、kb、mb、gb、tb、pb、eb、zb、yb、bb、nb、db。

1byte = 8bit	1k = 1024bit	1mb = 1024k	1g = 1024m

1t = 1024g 1p = 1024t 1e = 1024p 1z = 1024e

1y = 1024z 1b = 1024y 1n = 1024b 1d = 1024n

1)volume(大量)

截至目前,人類生產的所有印刷材料的資料量是200pb,而歷史上全人類總共說過的話的資料量大約是5eb。當前,典型個人計算機硬碟的容量為tb量級,而一些大企業的資料量已經接近eb量級。

2)velocity(高速)

這是大資料區分於傳統資料探勘的最顯著特徵。根據idc的「數字宇宙」的報告,預計到2023年,全球資料使用量將達到35.2zb。在如此海量的資料面前,處理資料的效率就是企業的生命。

天貓雙十一:2023年6分58秒,天貓交易額超過100億

3)variety(多樣)

4)value(低價值密度)2)零售:探索使用者價值,提供個性化服務解決方案;貫穿網路與實體零售,攜手創造極致體驗。經典案例,子尿布+啤酒。

5) 房產:大資料全面助力房地產行業,打造精準投策與營銷,選出更合適的地,建造更合適的樓,賣給更合適的人。

6)保險:海量資料探勘及風險**,助力保險行業精準營銷,提公升精細化定價能力。

8)移動聯通:移動聯通:根據使用者年齡、職業、消費情況,分析統計哪種**適合哪類人群。對市場人群精準定製。

9)人工智慧

1)黨的十八屆五中全會提出「實施國家大資料戰略」,***印發《促進大資料發展行動綱要》,大資料技術和應用處於創新突破期,國內市場需求處於爆發期,我國大資料產業面臨重要的發展機遇。

2)國際資料公司idc**,到2023年,企業基於大資料計算分析平台的支出將突破5000億美元。目前,我國大資料人才只有46萬,未來3到5年人才缺口達150萬之多。

3)2023年北京大學、中國人民大學、北京郵電大學等25所高校成功申請開設大資料課程。

4)大資料屬於高新技術,大牛少,公升職競爭小;

5)在北京大資料開發工程師的平均薪水已經到17800元(資料統計來職友集),而且目前還保持強勁的發展勢頭。

001 大資料概念

大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。主要解決海量資料資料的儲存和海量資料的分析計算問題 按順序給出資料儲存單位 bit byte kb mb g...

大資料hadoop系列 Hive優化

map階段的優化 作業會通過input的目錄產生乙個或多個map任務。a 假設input目錄下有1個檔案a,大小為780m,那麼hadoop會將該檔案a分隔成7個塊 6個128m的塊和1個12m的塊 從而產生7個map數 b 假設input目錄下有3個檔案a,b,c,大小分別為10m,20m,130...

《Hadoop與大資料探勘》 1 2 大資料平台

大資料平台有哪些呢?一般認為大資料平台分為兩個方面,硬體平台和軟體平台。硬體平台一般如open stack amazon雲平台 阿里雲計算等,類似這樣的平台其實做的是虛擬化,即把多台機器或一台機器虛擬化成乙個資源池,然後給成千上萬人用,各自租用相應的資源服務等。而軟體平台則是大家經常聽到的,如had...