爬蟲學習日記（一）

專案放到idea一直都跑不出起來，設定了module 各種source也沒有用，待解決。

放到myecliese後，就可以跑了。

需要解決的問題是：

在stack裡面去掉selenium的log，保留invalidinput的log

剛開始我的做法是：

直接不去丟擲這個exception

好的我的做法有點蠢

現在開始從重現問題開始：

重現問題也遇到了很多困難，首先要知道重現的是什麼問題，開啟test有個**，應該是從裡面爬東西。

裡面有這麼乙個輸入框，我推測這個爬蟲應該是模擬輸入，然後爬取資訊的，我在stack裡面找到了模擬輸入的資訊：

然後在爬蟲中設定了要輸入的值：

然而在debug時，並沒有出現跟郵件裡一樣的stack，報了這種錯：

debug以後是這一句：

問了東哥,是本地的phantoms沒有設定，所以它獲取不到，就會報錯，開啟專案中本地的webdriver測試方法，然後在本地安裝phantoms和webdriver（chromedriver），期間搜尋了一下，phantoms是乙個無頭瀏覽器，而selenuim可以模擬使用者操作，模擬過程需要乙個瀏覽器驅動。

本地安裝完全都東西，設定完以後：

再次debug 出現同樣的stack：

爬蟲學習日記一）

最近對爬蟲有點感興趣，打算用python寫爬蟲試試。記錄下學習過程中的所思所想以及遇到的一些有意思的問題。持續更新中。將爬取到的網頁解碼str str.decode utf 8 然後列印print str 的時候會出現錯誤 unicodeencodeerror gbk codec can t enc...

爬蟲學習日記

由於之前沒有python基礎，能不能跟上還是很慌的，但還是得盡力 1.檢視網頁robots協議，了解爬取需要遵守的規則 2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取 3.安裝scrapy 爬取介面部分資訊獲取書包搜尋介面的商品名稱和 import requests impor...

爬蟲學習日記（三）

之前做的task發現commit的時候出現點問題，失敗了，具體失敗的原因還不知道。而且cindy姐姐給我們講qa的時候，也跟我講了我做的有點問題，應該說是方向有點不對，郵件裡面東哥說的是要改stack裡面的資訊，但是其實cindy姐姐要的是改掉content裡面的東西，只要搜尋不到的船的資訊，這樣子...

爬蟲學習日記（一）

爬蟲學習日記 一）

爬蟲學習日記

爬蟲學習日記（三）

相關推薦

爬蟲學習日記一）