Hive簡介及基本應用

2021-09-25 15:00:22 字數 1317 閱讀 8611

hadoop是乙個開源框架來儲存和處理大型資料在分布式環境中。它包含兩個模組,乙個是mapreduce,另外乙個是hadoop分布式檔案系統(hdfs)。

hive作為構建在hadoop之上的資料倉儲,它提供了一系列的工具,可以用來進行資料提取轉化載入(etl),這是一種可以儲存、查詢和分析儲存在hadoop中的大規模資料的機制。hive定義了簡單的類sql查詢語言,成為hql,它允許熟悉sql的使用者查詢資料。

1. hive模糊搜尋表

show tables like '*name*';
2. 檢視表結構資訊

desc formatted table_name;

desc table_name;

3. 檢視分割槽資訊

show partitions table_name;
4. 新增字段

alter table dcc_sq_hive add columns(file_name char(255));
5. 將字段置頂

alter table dcc_sq_hive change file_name file_name char(255) first;
6.在指定位置新增字段

alter table dcc_sq_hive change file_name file_name char(255) after address ;
7. 顯示建表語句       

show create table dcc_sq_hive;
8. 顯示分割槽   

show partitions dcc_sq_hive ;
9. 刪除表

drop table dcc_sq_hive ;
10.複製表結構

create table dcc_sq_oldhive like dcc_sq_hive;
11. 刪除資料

alter table dcc_sq_hive drop if exists partition(deal_date=20190614);
在複製sql語句時,出現 display all 560 possibilities? (y or n)

報錯原因:包含大量的tab縮排

解決方法:刪除tab縮排即可

Numpy基礎及基本應用

資料處理的一般流程 資料收集 資料預處理 資料處理 資料展示 資料收集方法 網路爬蟲 公開資料集 其他途徑收集的資料 預處理方法 歸一化 二值化 維度變換 去重 無效資料過濾 資料處理方法 資料排序 資料查詢 資料統計分析 資料展示方法 列表 圖表 動態互動圖形 安裝numpy windows pi...

鏈式儲存棧及基本應用

實驗二 棧 佇列 實驗學時 學時 背景知識 入棧 出棧,入隊 出隊。目的要求 1 掌握棧 佇列的思想及其儲存實現。2 掌握棧 佇列的常見演算法的程式實現。實驗內容 1 採用鏈式儲存實現棧的初始化 入棧 出棧操作。2 採用順序儲存實現棧的初始化 入棧 出棧操作。3 採用鏈式儲存實現佇列的初始化 入隊 ...

Zookeeper 初步認識及基本應用

初步認識zookeeper zookeeper是乙個開源的分布式協調服務,是由雅虎建立的,基於google chubby。基於google chubby的開源實現。zookeeper的設計目的是將那些複雜且容易出錯的分布式一致性服務封裝起來。zookeeper 是什麼 分布式資料一致性解決方案 zo...