爬蟲學習日記(三)

2021-09-24 07:55:59 字數 1004 閱讀 6999

之前做的task發現commit的時候出現點問題,失敗了,具體失敗的原因還不知道。而且cindy姐姐給我們講qa的時候,也跟我講了我做的有點問題,應該說是方向有點不對,郵件裡面東哥說的是要改stack裡面的資訊,但是其實cindy姐姐要的是改掉content裡面的東西,只要搜尋不到的船的資訊,這樣子它爬蟲爬不到資料之後,可能好做一些統計工作一些,或許吧。。。具體我的也不懂,qa工具還用的不是很熟練,正確來說應該是不會用。

cindy的要求:

所以要重新改了

現在的問題就是,我測試不了!

我也不知道這個content裡面的值是**傳進去的,因為content裡面有這些內容:

而在**裡面我也看到相似的:

所以我簡單的以為,這些資訊都是像之前我接觸過得,是拼接而成的。 結果認真看的時候,發現其實這都是selenium裡面的方法,模擬操作的,跟報的這個沒有啥關係,而且我猜測,這個報的content裡面的內容,就是selenium裡面自己寫好的exception,它爬不到資料:就是說網頁上沒有這條船的資訊,就報nosuchexception,後面是各種的配置資訊。

問題找到了,所以現在我要做的就是,把content裡面的內容替換掉,但是我也沒有找到任何傳content的,也沒有注釋,估計有其中乙個變數是往上面傳的。

問了東哥

是這個,ok,好辦了。

重新debug,發現真的對unittest裡面的整個邏輯清楚了不少,我這裡簡單記錄下好了:

最上面的紅框,是設定一些你要搜尋的資訊。

下面執行crawler,crawler已經注入了instruction,就是各種配置資訊,還有要用到的crawler,搜不同的**就用相對應的crawler,然後執行excute方法,

excute方法裡面獲取task就是到執行crawler。

這裡是丟擲stack的時候。

然後在這裡輸出了這兩個list:

結果發現都是空????

如果這裡是空,那麼content也應該是空的吧,而且執行到後面就直接丟擲異常了,needlogpage也沒有放東西進去了,很懵。

爬蟲學習日記

由於之前沒有python基礎,能不能跟上還是很慌的,但還是得盡力 1.檢視網頁robots協議,了解爬取需要遵守的規則 2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取 3.安裝scrapy 爬取 介面部分資訊 獲取書包搜尋介面的商品名稱和 import requests impor...

爬蟲學習日記 一)

最近對爬蟲有點感興趣,打算用python寫爬蟲試試。記錄下學習過程中的所思所想以及遇到的一些有意思的問題。持續更新中。將爬取到的網頁解碼str str.decode utf 8 然後列印print str 的時候會出現錯誤 unicodeencodeerror gbk codec can t enc...

爬蟲學習日記(七)

今天上午繼續在弄whlc的東西,是環境的問題。關於這個是因為我之前研究過這個 確實是不能搜尋超過乙個月,會報乙個錯,所以當時間超過1個月是,我會返回乙個noresult的exception,我以為這是正確的。但是站在客戶的角度講,他可能會需要搜尋到兩個月,三個月的的資訊,而這些資訊是存在的,只要在 ...