常見的Hadoop十大應用誤解

常見的hadoop十大應用誤解

1.(誤解)hadoop什麼都可以做

2.(誤解)hadoop無法扮演hpc (high performance computing) or grid computing的角色

(正解) 由於hadoop本身是由並行運算架構(mapreduce)與分布式檔案系統(hdfs)所組成，所以我們也看到很多研究機構或教育單位，開始嘗試把部分原本執行在hpc 或grid上面的任務，部分移植到hadoop集群上面，利用hadoop兼顧高速運算與海量儲存的特性，更簡易且更有效率地來執行工作。目前國外高能物理、生命科學、醫學等領域，都已經有這樣的應用案例，利用hadoop集群與現有的hpc/grid 搭配、協同運作，來滿足不同特性的運算任務。

3.(誤解)hadoop只能做資料分析/挖掘(data mining/analyst)

(正解) hadoop特別適合來資料分析與挖掘的應用是毫無疑問的，但資料分析與挖掘是難度與深度都較高的乙個應用，所需要的時間的積累也比較長，也因此讓一般企業對於匯入hadoop視為畏途，甚至心懷恐懼。然而，從etu知意圖團隊這一兩年來輔導客戶的經驗來看，我們發現其實更多的應用，大多都在資料處理

(data processing)這個部分，或者更精確地來說，hadoop這個平台，特別適合資料預處理

(data pre-processing)這種應用場景。無論是資料倉儲的負載分流(dw offload)、資料的彙總(data aggregation)、甚或是我們運用協同過濾演算法(collaborative filtering)針對線下線上零售業所做的精準推薦應用(recommendation)，廣義上來看，都可以說是屬於data processing的一環，畢竟，big data的來臨，我們看data、運用data的角度與方式都必須要有所改變。

l big data強調的不是對因果關係的渴求，取而代之的是關注於

data

之間的相關關係。

l 也就是說，重點在於要知道

「是什麼」，反而未必需要知道

「為什麼」。

l 所以, 它要求的是所有

data

的處理，而不只是隨機樣本的分析。

l 最後我們往往會發現，處理

big data

的簡單演算法所得到的來自於

data

呈現的事實，往往比分析

small data

的複雜演算法所得到的來自

data

背後的原因，對企業帶來的效益更大。

我強烈推薦大家去看big data: a revolution that will transform how we live, work, and think這本書，裡面把我們面對big data該有的觀點與看法，做了非常清楚的陳述，有簡中的的翻譯本，繁中的好像還沒看到。

4.(誤解)hadoop就是bi (business intelligence)商業智慧型

(正解) 跟前面一樣，這也是大多數人最容易誤解的地方，因為hadoop特別適合來做資料分析，所以就很直覺地把它想成「那就是bi嘛」。會有這種誤解，主要來自於對資料運用的整體架構的不清楚。傳統bi是屬於資料展現層(data presentation)，其資料的載體(data store)是資料庫或資料倉儲。對比來看，hadoop就是專注在半結構化、非結構化資料的資料載體，跟bi是不同層次的概念。當然，hadoop除了data store外，又特別具備運算的特性，也因此特別容易帶來這種觀念上的混淆。至於半結構、非結構化資料的資料展現層部分，目前本身並不在hadoop的生態體系內，而是由其他現有或新創的公司來填補這塊空缺，所以，逐漸地我們會看到越來越多現有的bi tool，開始強調其自身與hadoop的聯絡性與相容性，同時，一些新創公司，也發展出完全不同於現有bi tool的基於big data的資料展現層。

5.(誤解)hadoop就是etl (extract, transform & load)

6.(誤解)hadoop跟傳統storage沒什麼差別,都特別適合來做資料的備份(data archive)

(正解) 熟悉storage的人，第一次看到hadoop時，往往只會注意到它的分布式檔案系統hdfs，然後開始拿它來與現有的storage的功能特性做比較，而忽略掉hadoop本身並行運算的那一塊。這很合理，畢竟mapreduce的概念，在應用上是比較抽象且難以捉摸的，相反的，hdfs就是乙個很清楚且具象的概念。hadoop當然可以拿來做data archive的運用，但如果你本身的資料沒有被經常或偶爾拿出來使用的需求(也就是我們所說的cold data)的話，hadoop本身的hdfs作為data archive並不會有特別的優勢，反而傳統storage的一些延伸的功能特性，hadoop本身並不具備。雖然hdfs本身是乙個不錯的object store，具備有作為scale-out nas的底層的特性,，但也就僅限於此了， hadoop本身並沒有特別為它外加storage本身該具有的功能，畢竟hadoop當初設計時，對資料的儲存與運用的思考，與storage的應用場景是完全不一樣的。hadoop本身要解決的，反而是現有當資料被放進storage後，需要再被拿出來處理或運算時所遇到的困難性。也因此，它特別適合那些web click-stream、cdr (call detail record)、gps data, system log、 and other time-series data等資料，因為這些資料都具有需要經常被拿出來分析處理的特性。在實際應用中，hadoop與傳統storage其實是相輔相成的，闢如說，我們可能會在hadoop上放過去3到6個月的資料，因為這些資料的再被利用性較高，而6個月之後的資料就可能會把它archive在傳統的storage內，因為它被再利用的程度低很多了。

7.(誤解)hadoop是乙個搜尋引擎(search engine)

(正解) search 的確是hadoop的乙個重要的應用，但hadoop本身並沒有內含search engine。實務上，我們常會把hbase 的index設計運用到極致，來滿足一些特定search 或query的應用，但如果要滿足全文檢索 (full-text search)的需求的話，你就必須在hadoop上建構乙個基於hadoop的搜尋引擎。lucene / katta 及其他的open source都有相對應的計畫，如何借助hadoop的特性，來實現乙個強大的分布式搜尋引擎，這也是我們一直密切注意、且已放進未來產品的藍圖之中的重要話題。

8.(誤解)基於hadoop的推薦系統與傳統的推薦系統並無不同

9.(誤解)hadoop不適合用來處理小檔案的應用

10.(誤解)hadoop不適合用來做日誌管理(log management)的應用

(正解) 當每天的日誌量成長到一定的程度，現有的日誌管理工具都會遇到瓶頸，所以一些國外的日誌管理工具(如splunk、arcsight)都已經發布了其hadoop connector，強調其與hadoop的聯絡性與相容性。所以，如果客戶對日誌管理的需求只是儲存日誌、並可以隨時對日誌搜尋的話，那hadoop本身即可以滿足這樣的應用，而對於比較複雜的日誌管理且日誌量非常大的需求，客戶也可以從現有的日誌管理工具中來挑選，並與hadoop來搭配協同運作。

常見的Hadoop十大應用誤解

SEO應用十大技巧

IPFS的十大應用機制

Kali Linux常見十大問題

常見的Hadoop十大應用誤解

SEO應用十大技巧

IPFS的十大應用機制

Kali Linux常見十大問題

相關推薦