大資料導論概論

2021-10-09 18:55:39 字數 1075 閱讀 9747

資料一直都在以每年50%的速度增長

人類社會的資料產生方式:運營式系統階段,使用者原創內容階段,感知式系統階段

被動,主動和自動式大資料資料**

大資料特徵:資料規模量大,資料快速動態可變,型別豐富和巨大的資料價值

海量資料+複雜型別的資料

4v:體量大(volume),多樣性(variety),速度快(velocity),價值(value)

資料存在形式:結構化,非結構化,半結構化資料

速度快:資料產生快,分析處理速度快

實現大資料價值的有效分析:大分析,大頻寬,大內容

挑戰:資料整合(廣泛的異構性,資料質量),資料分析(資料處理的實時性,動態變化環境中索引的設計,先驗知識的缺乏),資料隱私和安全(**的資料暴露,資料公開與隱私保護的矛盾,資料動態性)大資料能耗(採用新型低功耗硬體,引入可再生的新能源)

大資料技術:資料採集,資料訪問,基礎架構,資料處理,資料分析

資料探勘,模型**,結果呈現

大資料儲存和管理技術:分布式快取(通過快取資料庫查詢結果,減少資料庫的訪問次數,提高動態web應用的速度,提高擴充套件性),分布式資料庫(資料規模大,資料型別多樣化,面對不同文體資料管理不一樣,可用性 hbase是乙個高可靠性、高效能、面向列、可伸縮的分布式儲存系統,使用hdfs作為其檔案儲存系統),分布式檔案系統(hadoop具備廉價的硬體技術、開源的軟體體系、較強的靈活性、允許使用者自己修改**等特點,能支援海量資料儲存和計算任務)

大資料分析技術:mapreduce(批處理),pregel(圖計算),dremel(海量資料分析),powerdrill(大資料量的核心資料及處理),dryad(構建支援有向無環圖類似資料流的並行程式)

實時資料處理:流處理模式,批處理模式,兩者的融合

大資料處理流程:資料抽取與整合(物化或是etl方法的引擎,聯邦資料庫或中介軟體方法的引擎,資料流方法的引擎,搜尋引擎的方法),資料分析,資料解釋(視覺化技術,讓使用者在一定成都市那個了解與參與具體的分析過程)

大資料處理模型:流處理作為批處理的前端,流處理與批處理一起(流處理負責動態資料和實時智慧型,批處理負責靜止資料和歷史智慧型,實時智慧型和歷史智慧型合併成為全時智慧型)

大體量、精確性和快不可兼得,最多取其二

大資料導論章節答案 大資料概論智慧型樹章節答案

單選 在使用實驗法進行政策評估時,接受政策實驗處理的一組被稱為 多選 奧爾森關於集體行動邏輯的理論假設前提包括 單選 20世紀公共政策對社會的調節 規範作用已經 單選 抗拒全球化風險的最好方式是 單選 政策執行研究經歷了三代發展路徑。其中第一代政策執行研究路徑被稱為 單選 政策評估工作應該具有 單選...

大資料概論

大資料 big data 指無法在一定時間範圍 內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的 海量 高增長率和多樣化的資訊資產。主要解決,海量資料的 儲存和海量資料的 分析計算 問題。按順序給出資料儲存單位 bit byte kb ...

大資料(1) 概論

什麼是大資料?首先大資料不是一門專門的技術,而是一些列技術的綜合應用,各類資料庫 檔案儲存 處理平台 作業系統甚至是硬體的綜合。大資料 這個詞被廣為流傳,但真正說起來,它更是一種市場用語,是營銷手段的產物。大資料 所代表的是一種較新的理念,一種對資料處理的新的技術組合,一種新的解決資料或企業運營的思...