2023年寒假假期總結0117

2022-06-13 22:18:11 字數 1839 閱讀 5400

這裡只放出關鍵**,完整**上傳至github:

在爬取過程中,與上次jsoup不同的是,我們需要從不同的網頁中去爬取網頁,然後使用webmagic的**去實現爬取內容。所以我們需要知道中主**如何跳到職業的具體頁面,然後進行獲取資訊

解析頁面,獲取招聘資訊詳情的url位址

listlist = page.getht  ml().css("div#resultlist div.el").nodes();

//

建立招聘詳情物件

jobinfo jobinfo = new

jobinfo();

if (page != null

) catch

(exception e)

system.out.println("公司位置:"+jobinfo.getcompanyaddr());

jobinfo.setcompanyinfo(jsoup.parse(html.css("div.tmsg").tostring()).text());

system.out.println("公司簡介:"+jobinfo.getcompanyinfo());

jobinfo.setjobname(html.css("div.cn h1", "text").tostring());

system.out.println("職位名稱:"+jobinfo.getjobname());

trycatch

(exception e)

system.out.println("工作位置:"+jobinfo.getjobaddr());

jobinfo.setjobinfo(jsoup.parse(html.css("div.job_msg").tostring()).text());

system.out.println("工作職責:"+jobinfo.getjobinfo());

jobinfo.seturl(page.geturl().tostring());

//獲取薪資

integer salary = mathsalary.getsalary(html.css("div.cn strong", "text").tostring());

jobinfo.setsalarymin(salary[0]);

jobinfo.setsalarymax(salary[1]);

//獲取發布時間

string time = jsoup.parse(html.css("p.ltype").regex(" (.*?)發布").tostring().substring(html.css("p.ltype").regex(" (.*?)發布").tostring().length()-5)).text();

jobinfo.settime(time);

//把結果儲存起來

page.putfield("jobinfo", jobinfo);

}

在寫的過程中,會發現有些頁面不符合一般標準的職業詳情頁,比如說有些網頁會沒有職位詳情,發布日期等等,都是可能會遇見的情況,所以加上try catch捕獲異常,不過也可以不新增,因為一般這樣的職業主要是打廣告的作用,比如說阿里巴巴的有些就是有些類似廣告,沒有職位,只是單純的推薦這家公司,只有公司介紹等等,**在如果沒有try catch的話就會報錯,這個方法就不會繼續執行下去,會跳到下乙個鏈結去爬取,也不會儲存到資料庫中,但是為了**的健壯性還是加上了,還會出現陣列越界的情況,這個也是因為有些職業詳情**的內容不是很標準。所以還是在部分**上要新增try catch。

2023年寒假假期總結0203

思路 首先在hive上建立臨時表,然後將統計資料放在臨時表中,最後通過sqoop將臨時表中的資料匯入到mysql中。例子 將各個官方部門回答的數量都匯入到mysql中。1.在hive中建立capital temp表 create table capital temp object string nu...

2020春節寒假總結

作為乙個標準的信競生,經歷了兩年的風雨多少也有點收穫。從一開始學個迴圈都覺得難到現在,或多或少也會了點演算法,實力也來到省一的邊緣。這一切都要感謝我的老師,無論是班主任還是競賽老師。如果沒有班主任的支援,一直鼓勵我要在競賽上找到一條出路,我就會瞻前顧後,止步不前 如果沒有競賽老師的知識傳授 暖心鼓勵...

2023年寒假在家的狀態

2020 01 30號,計畫學習.這幾天在家的狀態 早上 6點起床 9 40 10 30 起床吃飯 11 00 11 30 出門散步 視情況而定,冷的話就和姥姥一塊烤火 一直到13 30左右 午飯 休息 玩耍時間 13 40 18 00 17 40 敲 做練習,寫作業,總結筆記,看書 18 00 1...