python處理資料,存進hive表的方法

首先，公司的小組長給了我乙個任務，把乙個txt的檔案中的部分內容，存進乙個在hive中已有的表的相同結構的表中。所以我的流程主要有三個，首先，把資料處理成和hive中表相同結構的資料，然後仿照已有的hive中表的結構再建立一張新的資料表，最後把本地的txt檔案上傳到hive中新建的資料表中。

1：已有的資料表的結構和在hive表中的結構完全對不上，下面的圖是原來hive程式設計客棧中表的結構和小組長給我的txt中表的結構：

大家可以看出，我們原來的hive中表的字段一共有17個，而組長給我的表中的字段一共有9個，其中最後乙個為json結構，而且順序還不對，hfqzryan所以我們要進行篩選，把對應上的字段放到相應位置，對應不上的字段寫成空。

大家要注意幾個地方，原來的資料是按照tab來劃分的，所以我們要數好對應的tab的數目，好來計算出來資料的實際的位置資訊，然後我們按照原來hive表中的資料順序，重新排列我們新建表的資料的順序，下面給大家看看結果：

其中line[0]=null，line[1]=102，大家以此類推。

3：我們把本地的txt檔案匯入到hive表中。首先我們要新建乙個和原來hive表中相同結構的資料表，然後把我們的資料匯入到表中，

hive> creat table new_sft(x1 string,x2 string ,...,xn string) hfqzryanpartitioned by (d string);

建好表之後，把資料匯入到新錶之中:

hive> load data local inpath『/www.cppcns.comhome/opendev/1.txt' into table new_sft;

本文標題: python處理資料,存進hive表的方法

本文位址: /jiaoben/python/232121.html