hadoop基本教程之開源資料倉儲工具hive

2021-08-14 01:30:23 字數 1111 閱讀 3124

hadoop是大資料分析的主要工具,也是學習大資料技術的核心知識,大資料課程培養的是德智體美全面發展,具有良好的職業道德和創新精神,且掌握計算機技術、hadoop 、spark、storm開發、hive 資料庫、linux 作業系統等知識,具備分布式儲存、分布式計算框架等技術,熟悉大資料處理和分析技術,面向大資料平台建設與服務企業的技術人才。

1. hive介紹

hive是乙個基於hadoop的開源資料倉儲工具,用於儲存和處理海量結構化資料。它是facebook 2023年8月開源的乙個資料倉儲框架,提供了類似於sql語法的hql語句作為資料訪問介面

2.hive的優缺點

優點:hive 使用類sql查詢語法, 很大限度的實現了和sql標準的相容,大大降低了傳統資料分析人員處理大資料的難度。使用jdbc 介面/odbc介面,開發人員更易開發應用;以mr 作為計算引擎、hdfs 作為儲存系統,為超大資料集設計的計算/ 擴充套件能力;統一的元資料管理(derby、mysql等),並可與pig 、spark等共享;

缺點:hive 的hql 表達的能力有限,比如不支援update、非等值連線、delete、insert單條等;由於hive自動生成mapreduce 作業, hql 調優困難;粒度較粗,可控性差。

3. 與關聯式資料庫的區別

hive和關聯式資料庫儲存檔案的系統不同,hive使用的是hadoop的hdfs(hadoop的分布式檔案系統),關聯式資料庫則是伺服器本地的檔案系統;hive使用mapreduce做運算,與傳統資料庫相比運算資料規模要大得多;關聯式資料庫都是為實時查詢的業務進行設計的,而hive則是為海量資料做資料探勘設計的,實時性很差;實時性的區別導致hive的應用場景和關聯式資料庫有很大的不同。hive很容易擴充套件自己的儲存能力和計算能力,這個是繼承hadoop的,而關聯式資料庫在這個方面要比資料庫差很多。

大資料產業已進入發展的「快車道」,急需大量優秀的大資料人才作為後盾。能夠在大資料行業崛起的初期進入到這個行業當中來,才有機會成為時代的弄潮兒。學習大資料勢不可擋,快快行動吧!hadoop的基本教程

大資料框架Hadoop教程

hadoop是乙個開源框架,它允許在整個集群使用簡單程式設計模型計算機的分布式環境儲存並處理大資料。它的目的是從單一的伺服器到上千臺機器的擴充套件,每乙個台機都可以提供本地計算和儲存。90 的世界資料在過去的幾年中產生 由於新技術,裝置和類似的社交 通訊裝置的出現,人類產生的資料量每年都在迅速增長。...

SQL系列教程之基本SELECT命令

sql系列教程之基本select命令 select命令或語句用來獲取乙個或多個表中的記錄資訊,一般配合where子句使用,來取得滿足某些條件的記錄。select命令或語句用來獲取乙個或多個表中的記錄資訊,一般配合where子句使用,來取得滿足某些條件的記錄,如果沒有where子句,將返回所有記錄。一...

Swift教程之基本操作符

本章介紹swift中的常見操作符,並介紹使用自定義操作符實現複雜運算。術語 操作符包括一元 二元和三元運算子 賦值運算子 簡單賦值運算 let b 10 var a 5 a b元組賦值運算 let x,y 1,2 x 等於 1,y 等於 2與c和objective c不同的是,swift的賦值運算子...