Python爬蟲的一點實踐

爬網頁爬的是資料，如果是簡單的html網頁，可以通過chrome分析請求連線然後通過scrapy獲取想要的資料，主要是xpath和正規表示式的使用；

如果是對網頁的無目的搜尋式爬取，可以獲取request返回的內容中所有超連結然後不停地爬下去；

如果是對乙個網頁的指定資料的爬取，直接可以定位到頁面元素然後獲取；

如果是動態的js渲染的頁面，通常直接分析js的渲染結果比較麻煩，這時候可以借助selenium+chromeheadless來進行資料爬取。

使用selenium時常常需要等待頁面載入，注意其三種等待方式：

time.sleep(***);

implicitly_wait(***);

這種等待方式對driver的整個生命週期都起作用，一次設定整個週期都遵從，因此往往會使等待時間變得很長

webdriverwait().until(***xx);

可以定時檢查等待條件是否滿足然後判斷是否往下執行**

爬蟲的一點經驗

1.寫乙個網頁爬蟲的時候遇到了乙個div巢狀問題，即乙個大的div裡面有很多小的div，如 xx x 這樣乙個型別，如果爬取內層的div是很簡單的，正規表示式十分好寫 div 但是如果要爬取外面的div該怎麼辦呢？當時我的做法是繼續尋找，找出該段內容後面的具有識別該段內容能力的內容。如上式，在正規表...

關於Python做爬蟲的一點基礎

報名了學院的p2p專案，所以只能被迫去學python了。在此記錄一下我的學習流程，免得自己日後忘記了 python中至少應當有一行特殊形式的注釋，組織行 user bin python雙引號中字串與單引號中的字串使用完全相同同一層次的語句必須有相同的縮排量，每一組語句成為乙個塊 raw input...

入門python爬蟲之前的最後一點小掙扎一

陸陸續續學習python已經快有半年了，期間也一直沒有做什麼有趣好玩的專案，最近在github看到許許多多的爬蟲專案，於是便想來趟趟這坑 1.init 的用法主要有兩個作用物件週期的初始化重要的一步和引數可以有多種形式每乙個python的類都有乙個超類object 某些時候超類的特殊方法是我們...

Python爬蟲的一點實踐

爬蟲的一點經驗

關於Python做爬蟲的一點基礎

入門python爬蟲之前的最後一點小掙扎 一

相關推薦

入門python爬蟲之前的最後一點小掙扎一