初學大資料

短時間內快速的產生海量的多種多樣的有價值的資料

分布式儲存

分布式儲存簡單的來說，就是將資料分散儲存到多個儲存伺服器上，並將這些分散的儲存資源構成乙個虛擬的儲存裝置。

分布式儲存架構由三個部分組成：客戶端、元資料伺服器和資料伺服器。客戶端負責傳送讀寫請求，快取檔案元資料和檔案資料。元資料伺服器負責管理元資料和處理客戶端的請求，是整個系統的核心元件。資料伺服器負責存放檔案資料，保證資料的可用性和完整性。

分布式計算

元資料處理方式：

1.分布式批處理

攢一段時間的資料，然後在未來某乙個時間來處理這些資料。

2.分布式流處理（實時處理）

資料不積攢，每產生一條資料，立即對這條資料進行處理。

client: 客戶端提交檔案到hdfs中儲存，將大檔案切割成乙個個block

namenode：管理資料塊對映；處理客戶端的讀寫請求；配置副本策略；管理hdfs的命名空間；包含了block的位置資訊；每乙個datanode的位置資訊，datanode的心跳資訊；檔案的屬性、許可權、上傳時間。

secondarynamenode：是namenode的跟班，分擔namenode的工作量；模擬執行edits檔案，合併fsimage和fsedits然後再發給namenode。

datanode：負責儲存client發來的資料塊block；執行資料塊的讀寫操作。

rack:機架

fsimage:檔案系統的目錄樹

edits：針對檔案系統做的修改操作記錄

namenode記憶體中儲存的是=fsimage+edits。

secondarynamenode負責定時預設1小時，從namenode上，獲取fsimage和edits來進行合併，然後再傳送給namenode。減少namenode的工作量。所以講secondarynamenode，單獨放置到一台機器上，可以增大冗餘，但是有可能會丟失一小時內處理的資料。

nodename返回給client一批位址後，這些dataname之間會形成乙個pipeline管道

namenode元資料，在記憶體中不穩定，可以將資料持久化到磁碟上。

並非所有的元資料都會持久化，除了block位置資訊，其他元素都會持久化。

1.第乙個block儲存在負載不是很高的乙個伺服器上

2.第1個備份的block儲存在與第乙個block不同的機架隨機一條伺服器上

3.第2個備份在與第乙個備份相同的機架隨即一台伺服器。