2023年寒假假期總結0203

2022-06-13 22:18:11 字數 1407 閱讀 2462

思路:首先在hive上建立臨時表,然後將統計資料放在臨時表中,最後通過sqoop將臨時表中的資料匯入到mysql中。

例子:將各個官方部門回答的數量都匯入到mysql中。

1.在hive中建立capital_temp表

create table capital_temp(

object

string

,num

int);

2.統計結果放入到臨時表當中

insert capital_temp

select

object,count(1) as num from capital_info group by object

3.因為每個hive的表都在hdfs上有檔案儲存,所以我們只需將hdfs上的資料匯入到mysql上即可。

'1.sqoop jdbc中含有引數 導致–-username: 未找到命令的錯誤

解決方案:在jdbc的url中如果含有&字元,會出現–-username: 未找到命令的錯誤的報錯資訊,解決辦法:在&字元前新增\即可。

2.sqoop匯入報錯can't parse input data

解決方案:在sqoop命令中對於字元的分割形式出現了錯誤,我的資料分割符號是製表符「\t「,但是語句中寫的是「,」,所以出現了以下的錯誤,改成自己的分割符號就好

3.sqoop匯出報錯incorrect string value: '\xe5\xbc\xa0\xe6\x96\x87...'

解決方案:沒有給mysql的字段設定編碼,加上就好

alter table capital_temp change answerobject answerobject varchar(200) character set utf8;
4.sqoop匯入資料之後檢視資料,發現num沒有數值,而是一起去了第一列,基本上確認問題所在:分隔符的問題。

解決方案:所以只需要將分隔符修改就行。

將原本命令中的--fields-terminated-by '\t'

改為--fields-terminated-by '

\001

'

2023年寒假假期總結0117

這裡只放出關鍵 完整 上傳至github 在爬取過程中,與上次jsoup不同的是,我們需要從不同的網頁中去爬取網頁,然後使用webmagic的 去實現爬取內容。所以我們需要知道中主 如何跳到職業的具體頁面,然後進行獲取資訊 解析頁面,獲取招聘資訊詳情的url位址 listlist page.geth...

2020春節寒假總結

作為乙個標準的信競生,經歷了兩年的風雨多少也有點收穫。從一開始學個迴圈都覺得難到現在,或多或少也會了點演算法,實力也來到省一的邊緣。這一切都要感謝我的老師,無論是班主任還是競賽老師。如果沒有班主任的支援,一直鼓勵我要在競賽上找到一條出路,我就會瞻前顧後,止步不前 如果沒有競賽老師的知識傳授 暖心鼓勵...

2023年寒假在家的狀態

2020 01 30號,計畫學習.這幾天在家的狀態 早上 6點起床 9 40 10 30 起床吃飯 11 00 11 30 出門散步 視情況而定,冷的話就和姥姥一塊烤火 一直到13 30左右 午飯 休息 玩耍時間 13 40 18 00 17 40 敲 做練習,寫作業,總結筆記,看書 18 00 1...