常見的Hadoop十大應用誤解

2021-09-06 20:50:40 字數 4413 閱讀 2693

常見的hadoop十大應用誤解

1.(誤解)hadoop什麼都可以做

2.(誤解)hadoop無法扮演hpc (high performance computing) or grid computing的角色

(正解) 由於hadoop本身是由並行運算架構(mapreduce)與分布式檔案系統(hdfs)所組成,所以我們也看到很多研究機構或教育單位,開始嘗試把部分原本執行在hpc 或grid上面的任務,部分移植到hadoop集群上面,利用hadoop兼顧高速運算與海量儲存的特性,更簡易且更有效率地來執行工作。目前國外高能物理、生命科學、醫學等領域,都已經有這樣的應用案例,利用hadoop集群與現有的hpc/grid 搭配、協同運作,來滿足不同特性的運算任務。

3.(誤解)hadoop只能做資料分析/挖掘(data mining/analyst)

(正解) hadoop特別適合來資料分析與挖掘的應用是毫無疑問的,但資料分析與挖掘是難度與深度都較高的乙個應用,所需要的時間的積累也比較長,也因此讓一般企業對於匯入hadoop視為畏途,甚至心懷恐懼。然而,從etu知意圖團隊這一兩年來輔導客戶的經驗來看,我們發現其實更多的應用,大多都在資料處理

(data processing)這個部分,或者更精確地來說,hadoop這個平台,特別適合資料預處理

(data pre-processing)這種應用場景。無論是資料倉儲的負載分流(dw offload)、資料的彙總(data aggregation)、甚或是我們運用協同過濾演算法(collaborative filtering)針對線下線上零售業所做的精準推薦應用(recommendation),廣義上來看,都可以說是屬於data processing的一環,畢竟,big data的來臨,我們看data、運用data的角度與方式都必須要有所改變。

l   big data強調的不是對因果關係的渴求,取而代之的是關注於

data

之間的相關關係。

l   也就是說,重點在於要知道

「是什麼」,反而未必需要知道

「為什麼」。

l   所以, 它要求的是所有

data

的處理,而不只是隨機樣本的分析。

l   最後我們往往會發現,處理

big data

的簡單演算法所得到的來自於

data

呈現的事實,往往比分析

small data

的複雜演算法所得到的來自

data

背後的原因,對企業帶來的效益更大。

我強烈推薦大家去看big data: a revolution that will transform how we live, work, and think這本書,裡面把我們面對big data該有的觀點與看法,做了非常清楚的陳述,有簡中的的翻譯本,繁中的好像還沒看到。

4.(誤解)hadoop就是bi (business intelligence)商業智慧型

(正解) 跟前面一樣,這也是大多數人最容易誤解的地方,因為hadoop特別適合來做資料分析,所以就很直覺地把它想成 「那就是bi嘛」。 會有這種誤解,主要來自於對資料運用的整體架構的不清楚。傳統bi是屬於資料展現層(data presentation),其資料的載體(data store)是資料庫或資料倉儲。對比來看,hadoop就是專注在半結構化、非結構化資料的資料載體,跟bi是不同層次的概念。當然,hadoop除了data store外,又特別具備運算的特性,也因此特別容易帶來這種觀念上的混淆。至於半結構、非結構化資料的資料展現層部分,目前本身並不在hadoop的生態體系內,而是由其他現有或新創的公司來填補這塊空缺,所以,逐漸地我們會看到越來越多現有的bi tool,開始強調其自身與hadoop的聯絡性與相容性,同時,一些新創公司,也發展出完全不同於現有bi tool的基於big data的資料展現層。

5.(誤解)hadoop就是etl (extract, transform & load)

6.(誤解)hadoop跟傳統storage沒什麼差別,都特別適合來做資料的備份(data archive)

(正解) 熟悉storage的人,第一次看到hadoop時,往往只會注意到它的分布式檔案系統hdfs,然後開始拿它來與現有的storage的功能特性做比較,而忽略掉hadoop本身並行運算的那一塊。這很合理,畢竟mapreduce的概念,在應用上是比較抽象且難以捉摸的,相反的,hdfs就是乙個很清楚且具象的概念。hadoop當然可以拿來做data archive的運用,但如果你本身的資料沒有被經常或偶爾拿出來使用的需求(也就是我們所說的cold data)的話,hadoop本身的hdfs作為data archive並不會有特別的優勢,反而傳統storage的一些延伸的功能特性,hadoop本身並不具備。雖然hdfs本身是乙個不錯的object store,具備有作為scale-out nas的底層的特性,, 但也就僅限於此了, hadoop本身並沒有特別為它外加storage本身該具有的功能,畢竟hadoop當初設計時,對資料的儲存與運用的思考,與storage的應用場景是完全不一樣的。hadoop本身要解決的,反而是現有當資料被放進storage後,需要再被拿出來處理或運算時所遇到的困難性。也因此,它特別適合那些web click-stream、cdr (call detail record)、gps data, system log、 and other time-series data等資料,因為這些資料都具有需要經常被拿出來分析處理的特性。在實際應用中,hadoop與傳統storage其實是相輔相成的,闢如說,我們可能會在hadoop上放過去3到6個月的資料,因為這些資料的再被利用性較高,而6個月之後的資料就可能會把它archive在傳統的storage內,因為它被再利用的程度低很多了。

7.(誤解)hadoop是乙個搜尋引擎(search engine)

(正解) search 的確是hadoop的乙個重要的應用,但hadoop本身並沒有內含search engine。實務上,我們常會把hbase 的index設計運用到極致,來滿足一些特定search 或query的應用,但如果要滿足全文檢索 (full-text search)的需求的話,你就必須在hadoop上建構乙個基於hadoop的搜尋引擎。lucene / katta 及其他的open source都有相對應的計畫,如何借助hadoop的特性,來實現乙個強大的分布式搜尋引擎,這也是我們一直密切注意、且已放進未來產品的藍圖之中的重要話題。

8.(誤解)基於hadoop的推薦系統與傳統的推薦系統並無不同

9.(誤解)hadoop不適合用來處理小檔案的應用

10.(誤解)hadoop不適合用來做日誌管理(log management)的應用

(正解) 當每天的日誌量成長到一定的程度,現有的日誌管理工具都會遇到瓶頸,所以一些國外的日誌管理工具(如splunk、arcsight)都已經發布了其hadoop connector,強調其與hadoop的聯絡性與相容性。所以,如果客戶對日誌管理的需求只是儲存日誌、並可以隨時對日誌搜尋的話,那hadoop本身即可以滿足這樣的應用,而對於比較複雜的日誌管理且日誌量非常大的需求,客戶也可以從現有的日誌管理工具中來挑選,並與hadoop來搭配協同運作。

SEO應用十大技巧

搜尋引擎優化 seo 是 網路營銷中的核心部分,它可以提高目標 在搜尋引擎的搜尋結果頁面的自然排名。一 以文字為主的頁面元素 二 url的優化 三 標題的優化 網頁優化可以說是從title開始的。在搜尋結果中,每個抓取內容的第一行顯示的文字就是該頁的 title,同樣在瀏覽器中開啟乙個頁面,位址列上...

IPFS的十大應用機制

在 ipfs 和 ipns 下面掛載全球檔案系統 儲存任何的檔案。掛載個人同步的資料夾,可以自動進行版本管理,自動備份.星際魔方 認為未來我們將擁有無限空間的網盤,不用擔心資料丟失,不用擔心隱私洩露 非對稱加密 作為加密檔案和資料共享系統。ipfs天生就具備這樣的能力,檔案加密,資料共享,都是小菜一...

Kali Linux常見十大問題

1 kali linux的映象選取 目前大部分機型的計算機為64位,所以建議使用amd64映象,位址為 2 kali linux使用無線網絡卡 目前360wifi第二代支援,不是破解網絡卡 3 kali linux支援破解無線網的網絡卡 型號 3070 8187 4 kali linux如何裝虛擬機...