Hadoop讀書筆記 基礎知識二

2021-09-01 23:23:44 字數 992 閱讀 7090

hadoop資料型別

為了讓鍵/值對可以在集群上移動,mapreduce框架提供了一種序列化鍵/值對的方法。因此,只有那些支援這種序列化的類能夠在框架中充當鍵/值。

實現writable介面的類可以是值;

實現writablecomparable介面的類可以是鍵/值。

鍵/值對經常使用的資料型別列表。這些類均用於實現writablecomparable介面。

booleanwritable

標準布林變數的封裝

bytewritable

單位元組數的封裝

doublewritable

雙位元組數的封裝

floatwritable

浮點數的封裝

intwritable

整數的封裝

longwritable

long的封裝

textwritable

使用utf8格式的文字

nullwritable

無鍵值的佔位符

reducer

partition

shuffing

讀和寫mapreduce處理的基本原則之一是將輸入資料分割成塊。這些塊可以在多台計算機上並行處理。這些塊被稱為分片(input spilt)。每個分片應該足夠小以實現更細粒度的並行,但也不能太小,否則啟動與停止分片處理就佔很大的開銷。

inputformat

hadoop分割與讀取輸入檔案的方式被定義在inputformat介面的乙個實現中。textformat是其預設實現。

outputformat

當mapreduce輸出資料到檔案時,使用的是outputformat類。

普通的mapreduce資料流。輸入資料被分配到不同節點之後,節點間通訊的唯一時間是在「洗牌」階段,這個通訊約束對可擴充套件性有極大幫助。

UNIX讀書筆記 UNIX基礎知識

目錄 unix體系結構 登入 shell 檔案和目錄 1 檔案系統 2 檔名 3 路徑名 4 工作目錄 輸入輸出 1 檔案描述符 file descriptor 2 標準輸入 標準輸出和標準錯誤 3 不帶緩衝的io 4 標準i o 程式和程序 1 程式 2 程序和程序id 3 程序控制 4 執行緒和...

mysql基礎知識 讀書筆記1

sql 分類 sql 語句主要可以劃分為以下3 個類別。ddl data definition languages 語句 資料定義語言,這些語句定義了不同的資料段 資料庫 表 列 索引等資料庫物件的定義。常用的語句關鍵字主要包括create drop alter 等。dml data manipul...

讀書筆記 C 基礎知識溫習 堆疊

概念 棧區 heap 由編譯器自動分配釋放 存放函式的引數值,區域性變數的值等。其操作方式類似於資料結構中的棧。堆區 stack 一般由程式設計師分配釋放,若程式設計師不釋放,程式結束時可能由os 注意它與資料結構中的堆是兩回事,分配方式倒是類似於鍊錶。全域性區 靜態區 static 全域性變數和靜...