Hadoop系列 7 資料儲存之資料儲存模型

1、關係模型

主要以表的形式儲存資料，表中每一行(row)為乙個記錄，每列都有名稱和型別

2、nosql模型：

（1）鍵值對資料模型

有乙個特定的key和乙個value指標，指向特定的資料。

適用：通過key對資料進行查詢和修改等操作

不適用：側重於批量查詢、更新的海量儲存系統，以及複雜邏輯操作

優點：資料模型簡單、易於實現

缺點：由hashtable實現，無法進行範圍查詢；弱化了資料結構，只能在應用層解析結構；模型不提供事務處理機制，只提供get，set操作。

應用：redis資料庫（鍵值模型的記憶體資料庫，較小資料的高效能操作）、dynamo（amazon專用）

（2）列式資料模型

列式儲存的形式類似於表，但是圍繞"列"儲存，乙個列的資料盡可能儲存在硬碟同一頁。

適用：適用於資料分析和資料倉儲等，迅速查詢資料量大的應用。

不適用：查詢涉及的資料量較小或者大部分查詢都需要整行的資料。

優點：查詢速度快，可擴充套件性強。

應用：bigtable、cassandra、hbase

列族：將多個經常一起訪問的資料列的各個值存放在一起。類似於鍵值對key-value模型，value對應乙個列族。

（3）文件資料模型

文件儲存與鍵值模型類似，value指向結構化資料。value資料以json或類json格式儲存。與關係模型不同，支援巢狀結構；與鍵值儲存不同，文件儲存關心儲存的內部結構。

適用：web應用

優點：資料結構要求不嚴格，不需要預先定義結構

缺點：查詢效能一般，缺乏統一的查詢語法

應用：mongodb、couchdb

（4）影象資料模型

圖形儲存儲存圖的節點和邊的資訊，部分模型支援新增注釋。圖模型由節點、邊、邊的屬性組成。

適用：圖結構

缺點：功能相對有限，擴充套件性差

應用：neo4j、graphdb

Hadoop系列之八 Hadoop集群

1 合併mapreduce集群與hdfs集群在排程執行乙個作業時，將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上，可避免大量的資料傳輸，實現資料處理的本地性，進而大大提高整個過程的完成效率，這也正是hadoop集群的部署方式。如下圖所示。在乙個小於50個節點的小規模集群中，可以將...

Hadoop系列 7 資料儲存之資料儲存模型

Hadoop系列之八 Hadoop集群

Hadoop系列之八 Hadoop集群

Hadoop系列之八 Hadoop集群

相關推薦