mapreduce對key值排序問題

最近在學習mapreduce程式設計遇到很多用mr實現按某一列值排序，或二次排序的類似問題，於是試著用mr實現各種排序問題，最終有點小總結：無需在key物件之外寫任何排序函式，mr會完成按key值排序，具體詳解如下：

在這之前要先說一下writablecomparable介面。writable介面大家可能都知道，它是乙個實現了序列化協議的序列化物件。在hadoop中定義乙個結構化物件都要實現writable介面，使得該結構化物件可以序列化為位元組流，位元組流也可以反序列化為結構化物件。那writablecomparable介面是可序列化並且可比較的介面。mapreduce中所有的key值型別都必須實現這個介面，既然是可序列化的那就必須得實現readfiels（）和write（）這兩個序列化和反序列化函式，既然也是可比較的那就必須得實現compareto（）函式，該函式即是比較和排序規則的實現。這樣mr中的key值就既能可序列化又是可比較的。下面幾符圖是api中對writablecomparable介面的解釋及其方法，還有乙個實現了該介面的物件的列子：

圖一 writablecomparable 介面解釋

圖二 writablecomparable 介面方法

圖三自定義物件實現writablecomparable 介面例子

所以總結上面，hadoop會呼叫key值型別的compareto函式按照該函式的要求對key值進行排序。所以你想對哪些列排序就要把哪些列併入到key值物件中，像二次排序那樣，要對兩列進行排序，兩列值都要併入key中，則key成為包含兩個屬性的復合key，hadoop 提供的key值可用的型別不能滿足要求，那就重寫乙個物件實現writablecomparable介面（類圖三），該物件包含連個屬性，並實現compareto函式，最後會根據key值對兩列資料排序，從而實現二次排序。本人也層試圖用mr實現對value的排序，最終沒能成功，也可能是本人水平有限，但至少會比對key排序複雜，這也是我要強調的不要試圖單純的對value進行排序，否則比較難實現排序。

mapreduce對key值排序問題

史上最簡單mapreduce對key的正序和倒序

map根據key排序 Map Reduce原理簡介

vue中key值與react中key值的區別

mapreduce對key值排序問題

史上最簡單mapreduce對key的正序和倒序

map根據key排序 Map Reduce原理簡介

vue中key值與react中key值的區別

相關推薦