大資料第一章複習

2021-10-12 04:04:35 字數 1350 閱讀 5046

大資料4「v」:

資料量大(volume)

資料型別繁多(variety)

處理速度快(velocity)

價值密度低(value)

大資料對思維方式的影響:全樣而非抽樣、效率而非精確、相關而非因果。

大資料的基本處理流程:資料採集、儲存、分析和結果呈現。

資料採集與預處理:

利用etl工具將分布的、異構資料來源中的資料,如關係資料、平面資料檔案等,抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉儲或資料集市中,成為聯機分析處理、資料探勘的基礎;也可以利用日誌採集工具(如flume、kafka等)把實時採集的資料作為流計算系統的輸入,進行實時處理分析。

資料儲存和管理:

利用分布式檔案系統、資料倉儲、關聯式資料庫、nosql資料庫、雲資料庫等,實現對結構化、半結構化和非結構化海量資料的儲存和管理。

資料處理與分析:

利用分布式並行程式設計模型和計算框架,結合機器學習和資料探勘演算法,實現對海量資料的處理和分析;對分析的結果進行視覺化呈現,幫助人們更好地理解資料、分析資料。

資料安全和隱私保護:

在從大資料中挖掘潛在的巨大商業價值和學術價值的同時,構建隱私資料保護體系和資料安全體系,有效保護個人隱私和資料安全。

雲計算3種典型的服務模式:

基礎設施層:

iaas(基礎設施即服務)

平台層:

paas(平台即服務)

應用層:

saas(軟體即服務)

雲計算的3種型別:公有雲、私有雲和混合雲。

雲計算的關鍵技術:虛擬化、分布式儲存、分布式計算、多租戶等。

雲計算的概念:雲計算實現了通過網路提供可伸縮的、廉價的分布式計算能力,使用者只需要在具備網路接入條件的地方,就可以隨時隨地獲得所需的各種it資源。雲計算代表了以虛擬化技術為核心、以低成本為目標的、動態可擴充套件的網路應用基礎設施,是近年來最有代表性的網路計算技術與模式。

物聯網的概念:物聯網是物物相連的網際網路,是網際網路的延伸,它利用區域性網路或網際網路等通訊技術把感測器、控制器、機器、人員和物等通過新的方式連在一起,形**與物、物與物相連,實現資訊化和遠端管理控制。

物聯網的4層架構:感知層、網路層、處理層和應用層。

大資料與雲計算、物聯網的聯絡:

雲計算為大資料提供了技術基礎,大資料為雲計算提供用武之地;物聯網是大資料的重要**,大資料技術為物聯網資料分析提供支撐;雲計算為物聯網提供海量資料儲存能力,物聯網為雲計算技術提供了廣闊的應用空間。

大資料與雲計算、物聯網的區別:

大資料側重於對海量資料的儲存、處理與分析,從海量資料中發現價值,服務於生產和生活;雲計算本質上旨在整合和優化各種it資源,並通過網路以服務的方式廉價地提供給使用者;物聯網的發展目標是實現物物相連,應用創新是物聯網發展的核心。

Linux複習第一章

第一章 linux系統簡介與環境搭建 1 linux作業系統的核心程式由芬蘭赫爾辛基大學的一名學生linus torvalds 林納斯 托瓦茲 編寫。2 linux作業系統是一款免費使用,且可以自由傳播的類unix作業系統,它支援多工 多使用者 多執行緒及多cpu,從其誕生到現在,效能逐步得到了穩定...

Lua 複習 第一章

暑假的時候在家呆了半個月,準確的說應該是大三的暑假,在這半個月的時間裡自學了lua.說起學習lua,也算是 自己第一次做的沒有目的的學習吧,因為當時完全沒有對lua的需求.以至於到現在都不知道當時是為什麼學習lua 的,就如大二的時候學python一樣.現在就複習一下,然後找點東西寫點 關於學習lu...

第一章半複習

find locate where is witch grep全文搜尋 像hello.c程式這樣只由ascii碼表示且構成的叫文字檔案,其他的都叫二進位制檔案。系統中所有資訊都是由一串位表示的。在unix系統上,從原始檔到目標檔案的轉化是由編譯器驅動程式完成的 x unix gcc o hello ...