MapReduce提供的輸入輸出格式

2022-09-01 21:36:26 字數 1056 閱讀 4953

輸入格式

key

value

textinputformat

預設格式,讀取檔案的行

行的位元組偏移量

行的內容

keyvalueinputformat

把行解析為鍵值對

第乙個tab字元前的所有字元

行剩下的內容

sequencefileinputformat

hadoop定義的高效能二進位制格式

自定義

自定義

說明:

textinputformat:預設的輸入格式

,輸入檔案每一行作為單獨的乙個記錄,但不做解析處理。這對那些沒有被格式化的資料或是基於行的記錄來說是很有用的,比如日誌檔案。

keyvalueinputformat:也是把輸入檔案每一行作為單獨的乙個記錄。然而不同的是textinputformat把整個檔案行當做值資料,keyvalueinputformat則是通過搜尋tab字元來把行拆分為鍵值對。這在把乙個mapreduce的作業輸出作為下乙個作業的輸入時顯得特別有用,因為預設輸出格式(下面有更詳細的描述)正是按keyvalueinputformat格式輸出資料。

sequencefileinputformat用法:

job.setinputformatclass(sequencefileinputformat.class);

輸出格式類似。

Mapreduce的輸入格式

map k1,v1 list k2,v2 reduce k2,list v2 list k3,v3 reduce的輸入型別必須與map函式的輸出型別相同 combine的輸入輸出鍵值型別必須相同,也就是k2,v2 static class reducer extends reudcer partio...

Linux shell shell的輸入與輸出

大多數使用標準輸入的命令都指定乙個檔案作為標準輸入 1.echo echo hello word 將輸出hello word 如果想把hello word輸出到檔案中中 使用重定向符號 下面命令將helloword字元寫入myfile檔案中 echo hello word myfile 2.read...

python輸入檔案 python 檔案的輸入輸出

一 檔案的輸入 在前面python基礎命令中,我們已經介紹過輸入,在此舉幾個例子解釋一下兩者的區別 raw input 函式從標準輸入讀取乙個行,並返回乙個字串 去掉結尾的換行符 input 函式和 raw input 函式基本類似,但是 input 可以接收乙個python表示式作為輸入,並將運算...