爬蟲學習日記(一)

2021-09-24 08:52:18 字數 642 閱讀 8299

專案放到idea一直都跑不出起來,設定了module 各種source也沒有用,待解決。

放到myecliese後,就可以跑了。

需要解決的問題是:

在stack裡面去掉selenium的log,保留invalidinput的log

剛開始我的做法是:

直接不去丟擲這個exception

好的 我的做法有點蠢

現在開始從重現問題開始:

重現問題也遇到了很多困難,首先要知道重現的是什麼問題,開啟test有個**,應該是從裡面爬東西。

裡面有這麼乙個輸入框,我推測這個爬蟲應該是模擬輸入,然後爬取資訊的,我在stack裡面找到了模擬輸入的資訊:

然後在爬蟲中設定了要輸入的值:

然而在debug時,並沒有出現跟郵件裡一樣的stack,報了這種錯:

debug以後是這一句:

問了東哥,是本地的phantoms沒有設定,所以它獲取不到,就會報錯,開啟專案中本地的webdriver測試方法,然後在本地安裝phantoms和webdriver(chromedriver),期間搜尋了一下,phantoms是乙個無頭瀏覽器,而selenuim可以模擬使用者操作,模擬過程需要乙個瀏覽器驅動。

本地安裝完全都東西,設定完以後:

再次debug 出現同樣的stack:

爬蟲學習日記 一)

最近對爬蟲有點感興趣,打算用python寫爬蟲試試。記錄下學習過程中的所思所想以及遇到的一些有意思的問題。持續更新中。將爬取到的網頁解碼str str.decode utf 8 然後列印print str 的時候會出現錯誤 unicodeencodeerror gbk codec can t enc...

爬蟲學習日記

由於之前沒有python基礎,能不能跟上還是很慌的,但還是得盡力 1.檢視網頁robots協議,了解爬取需要遵守的規則 2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取 3.安裝scrapy 爬取 介面部分資訊 獲取書包搜尋介面的商品名稱和 import requests impor...

爬蟲學習日記(三)

之前做的task發現commit的時候出現點問題,失敗了,具體失敗的原因還不知道。而且cindy姐姐給我們講qa的時候,也跟我講了我做的有點問題,應該說是方向有點不對,郵件裡面東哥說的是要改stack裡面的資訊,但是其實cindy姐姐要的是改掉content裡面的東西,只要搜尋不到的船的資訊,這樣子...