python處理資料,存進hive表的方法

2022-09-27 05:54:12 字數 867 閱讀 5276

首先,公司的小組長給了我乙個任務,把乙個txt的檔案中的部分內容,存進乙個在hive中已有的表的相同結構的表中。所以我的流程主要有三個,首先,把資料處理成和hive中表相同結構的資料,然後仿照已有的hive中表的結構再建立一張新的資料表,最後把本地的txt檔案上傳到hive中新建的資料表中。

1:已有的資料表的結構和在hive表中的結構完全對不上,下面的圖是原來hive程式設計客棧中表的結構和小組長給我的txt中表的結構:

大家可以看出,我們原來的hive中表的字段一共有17個,而組長給我的表中的字段一共有9個,其中最後乙個為json結構,而且順序還不對,hfqzryan所以我們要進行篩選,把對應上的字段放到相應位置,對應不上的字段寫成空。

大家要注意幾個地方,原來的資料是按照tab來劃分的,所以我們要數好對應的tab的數目,好來計算出來資料的實際的位置資訊,然後我們按照原來hive表中的資料順序,重新排列我們新建表的資料的順序,下面給大家看看結果:

其中line[0]=null,line[1]=102,大家以此類推。

3:我們把本地的txt檔案匯入到hive表中。首先我們要新建乙個和原來hive表中相同結構的資料表,然後把我們的資料匯入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) hfqzryanpartitioned by (d string);

建好表之後,把資料匯入到新錶之中:

hive> load data local inpath『/www.cppcns.comhome/opendev/1.txt' into table new_sft;

本文標題: python處理資料,存進hive表的方法

本文位址: /jiaoben/python/232121.html

新浪積分爬取資料存進資料庫

今天爬取的 是 今天遇到的兩個難點是 一 通過xpath爬取img的src的屬性結果是另乙個的連線 二 xpath爬取下來的內容存進mysql遇到的問題 一邊上 一邊說問題 import requests import mysql.connector from lxml import etree i...

python利用waitpid 處理殭屍程序

1.父程序列印父親後處於掛起狀態等待子程序完成所有命令後,父程序處理了子程序後在執行父程序的命令。import os import time re os.fork if re print 父親 result os.waitpid 1 0 0表示掛起父程序當子程序完成任務後父程序處理了子程序在執行父程...

在前端介面輸入中文經過處理存進資料庫為亂碼問題

在普遍的ssh框架加tomcat,mysql中,在進行中文傳輸的時候會出現亂碼。首先,最基本的是檢查顯示的介面,html,jsp編碼格式,然後是工作空間 的編碼,統一為utf 8 其次,確保連線資料庫的方式的編碼也統一。這個編碼在jdbc的url中增加 url jdbc mysql localhos...