Hadoop系列 7 資料儲存之資料儲存模型

2021-08-16 23:54:07 字數 1064 閱讀 4418

1、關係模型

主要以表的形式儲存資料,表中每一行(row)為乙個記錄,每列都有名稱和型別

2、nosql模型:

(1)鍵值對資料模型

有乙個特定的key和乙個value指標,指向特定的資料。

適用:通過key對資料進行查詢和修改等操作

不適用:側重於批量查詢、更新的海量儲存系統,以及複雜邏輯操作

優點:資料模型簡單、易於實現

缺點:由hashtable實現,無法進行範圍查詢;弱化了資料結構,只能在應用層解析結構;模型不提供事務處理機制,只提供get,set操作。

應用:redis資料庫(鍵值模型的記憶體資料庫,較小資料的高效能操作)、dynamo(amazon專用)

(2)列式資料模型

列式儲存的形式類似於表,但是圍繞"列"儲存,乙個列的資料盡可能儲存在硬碟同一頁。

適用:適用於資料分析和資料倉儲等,迅速查詢資料量大的應用。

不適用:查詢涉及的資料量較小或者大部分查詢都需要整行的資料。

優點:查詢速度快,可擴充套件性強。

應用:bigtable、cassandra、hbase

列族:將多個經常一起訪問的資料列的各個值存放在一起。類似於鍵值對key-value模型,value對應乙個列族。

(3)文件資料模型

文件儲存與鍵值模型類似,value指向結構化資料。value資料以json或類json格式儲存。與關係模型不同,支援巢狀結構;與鍵值儲存不同,文件儲存關心儲存的內部結構。

適用:web應用

優點:資料結構要求不嚴格,不需要預先定義結構

缺點:查詢效能一般,缺乏統一的查詢語法

應用:mongodb、couchdb

(4)影象資料模型

圖形儲存儲存圖的節點和邊的資訊,部分模型支援新增注釋。圖模型由節點、邊、邊的屬性組成。

適用:圖結構

缺點:功能相對有限,擴充套件性差

應用:neo4j、graphdb       

Hadoop系列之八 Hadoop集群

1 合併mapreduce集群與hdfs集群 在排程執行乙個作業時,將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上,可避免大量的資料傳輸,實現資料處理的本地性,進而大大提高整個過程的完成效率,這也正是hadoop集群的部署方式。如下圖所示。在乙個小於50個節點的小規模集群中,可以將...

Hadoop系列之八 Hadoop集群

1 合併mapreduce集群與hdfs集群 在排程執行乙個作業時,將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上,可避免大量的資料傳輸,實現資料處理的本地性,進而大大提高整個過程的完成效率,這也正是hadoop集群的部署方式。如下圖所示。在乙個小於50個節點的小規模集群中,可以將...

Hadoop系列之八 Hadoop集群

1 合併mapreduce集群與hdfs集群 在排程執行乙個作業時,將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上,可避免大量的資料傳輸,實現資料處理的本地性,進而大大提高整個過程的完成效率,這也正是hadoop集群的部署方式。如下圖所示。在乙個小於50個節點的小規模集群中,可以將...