7 25每週總結

2022-09-19 03:51:13 字數 1999 閱讀 9689

這周學習hadoop的簡介及其發展,首先是hadoop的介紹

1)hadoop是乙個由apache**會所開發的分布式系統基礎架構。

2)主要解決,海量資料的儲存和海量資料的分析計算問題。

3)廣義上來說,hadoop通常是指乙個更廣泛的概念——hadoop生態圈。

hadoop 發展歷史 

1)hadoop創始人doug cutting,為了實現與google類似的全文搜尋功能,他在lucene框架基礎上進行優

化公升級,查詢引擎和索引引擎。

hadoop創始人doug cutting

2)2023年年底lucene成為apache**會的乙個子專案。

3)對於海量資料的場景,lucene框架面對與google同樣的困難,儲存海量資料困難,檢索海量速度慢。

4)學習和模仿google解決這些問題的辦法 :微型版nutch。

5)可以說google是hadoop的思想之源(google在大資料方面的三篇**)

gfs --->hdfs

map-reduce --->mr

bigtable --->hbase

6)2003-2023年,google公開了部分gfs和mapreduce思想的細節,以此為基礎doug cutting等人用

了2年業餘時間實現了dfs和mapreduce機制,使nutch效能飆公升。

7)2005 年hadoop 作為 lucene的子專案 nutch的一部分正式引入apache**會。

8)2006 年 3 月份,map-reduce和nutch distributed file system (ndfs)分別被納入到 hadoop 專案

中,hadoop就此正式誕生,標誌著大資料時代來臨。

9)名字**於doug cutting兒子的玩具大象

然後介紹hadoop的優勢

1)高可靠性:hadoop底層維護多個資料副本,所以即使hadoop某個計算元

素或儲存出現故障,也不會導致資料的丟失。

2)高擴充套件性:在集群間分配任務資料,可方便的擴充套件數以千計的節點。

3)高效性:在mapreduce的思想下,hadoop是並行工作的,以加快任務處

理速度。

4)高容錯性:能夠自動將失敗的任務重新分配。

然後介紹hadoop生態體系

1)sqoop:sqoop 是一款開源的工具,主要用於在 hadoop、hive 與傳統的資料庫(mysql)

間進行資料的傳遞,可以將乙個關係型資料庫(例如 :mysql,oracle 等)中的資料導進

到 hadoop 的 hdfs 中,也可以將 hdfs 的資料導進到關係型資料庫中。

2)flume:flume 是乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,

flume 支援在日誌系統中定製各類資料傳送方,用於收集資料;

3)kafka:kafka 是一種高吞吐量的分布式發布訂閱訊息系統;

4)spark:spark 是當前最流行的開源大資料記憶體計算框架。可以基於 hadoop 上儲存的大數

據進行計算。

5)flink:flink 是當前最流行的開源大資料記憶體計算框架。用於實時計算的場景較多。

6)oozie:oozie 是乙個管理 hadoop 作業(job)的工作流程排程管理系統。

7)hbase:hbase 是乙個分布式的、面向列的開源資料庫。hbase 不同於一般的關聯式資料庫,

它是乙個適合於非結構化資料儲存的資料庫。

8)hive:hive 是基於 hadoop 的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張

資料庫表,並提供簡單的 sql 查詢功能,可以將 sql 語句轉換為 mapreduce 任務進行運

行。其優點是學習成本低,可以通過類 sql 語句快速實現簡單的 mapreduce 統計,不必開

發專門的 mapreduce 應用,十分適合資料倉儲的統計分析。

9)zookeeper:它是乙個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、

名字服務、分布式同步、組服務等。

每週總結 12 5 12 11

關於時間格式 string型別轉date型別 string datestr2 2012 01 10t00 00 00 replace t dateformat dateformat new dateformat yyyy mm dd hh mm ss date date dateformat.par...

每週總結 2018 3 3

上個學期的學習經驗告訴我要勤總計。新的學期開始總結這週做的事。本週學習四天半,內容主要兩部分 python中特有的資料結構 元組tuple 1,2,3,4 同list,但不能修改 無list的方法 字典dict 插入d e 5,pop 鍵值 d.get 鍵值 使用鍵 值儲存 集合set 無重複元素 ...

每週總結 2018 3 10

這周開始上課,沒學什麼其他的,為了向某人交差,還是寫寫吧。智慧型演算法快速瀏覽 遺傳演算法 編碼 初始化種群 適應度函式 選擇 交叉 變異免疫演算法 編碼 初始化種群 適應度函式 轉殖選擇 免疫記憶 疫苗接種 交叉 變異粒子群演算法 編碼 初始化種群 適應度函式 粒子速度及位置更新魚群演算法 編碼 ...