爬蟲學習日記(七)

2021-09-24 07:55:59 字數 479 閱讀 9214

今天上午繼續在弄whlc的東西,是環境的問題。

關於這個是因為我之前研究過這個**,確實是不能搜尋超過乙個月,會報乙個錯,所以當時間超過1個月是,我會返回乙個noresult的exception,我以為這是正確的。但是站在客戶的角度講,他可能會需要搜尋到兩個月,三個月的的資訊,而這些資訊是存在的,只要在**上分開乙個乙個月來搜尋就行了,所以返回noresult是錯的,這是之前開發的時候所沒有想到的。

解法方案:

我之前的邏輯是:從instruction獲取資訊(時間 城市等)-> 拼接header -> 拼接request body -> 獲取 response -> 解析 response

現在的邏輯:從instruction獲取資訊(時間 城市等) -> 將起始時間賦值給fromdate 結束時間賦值給todate -> 判斷fromdate和todate之間是不是超過30天 -> 超過30天就擷取前30天執行查詢

processon打不開,不然就能畫圖了。

爬蟲學習日記

由於之前沒有python基礎,能不能跟上還是很慌的,但還是得盡力 1.檢視網頁robots協議,了解爬取需要遵守的規則 2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取 3.安裝scrapy 爬取 介面部分資訊 獲取書包搜尋介面的商品名稱和 import requests impor...

爬蟲學習日記 一)

最近對爬蟲有點感興趣,打算用python寫爬蟲試試。記錄下學習過程中的所思所想以及遇到的一些有意思的問題。持續更新中。將爬取到的網頁解碼str str.decode utf 8 然後列印print str 的時候會出現錯誤 unicodeencodeerror gbk codec can t enc...

爬蟲學習日記(三)

之前做的task發現commit的時候出現點問題,失敗了,具體失敗的原因還不知道。而且cindy姐姐給我們講qa的時候,也跟我講了我做的有點問題,應該說是方向有點不對,郵件裡面東哥說的是要改stack裡面的資訊,但是其實cindy姐姐要的是改掉content裡面的東西,只要搜尋不到的船的資訊,這樣子...