Python爬蟲的一點實踐

2021-08-19 22:37:57 字數 592 閱讀 1036

爬網頁爬的是資料,如果是簡單的html網頁,可以通過chrome分析請求連線然後通過scrapy獲取想要的資料,主要是xpath和正規表示式的使用;

如果是對網頁的無目的搜尋式爬取,可以獲取request返回的內容中所有超連結然後不停地爬下去;

如果是對乙個網頁的指定資料的爬取,直接可以定位到頁面元素然後獲取;

如果是動態的js渲染的頁面,通常直接分析js的渲染結果比較麻煩,這時候可以借助selenium+chromeheadless來進行資料爬取。

使用selenium時常常需要等待頁面載入,注意其三種等待方式:

time.sleep(***);
implicitly_wait(***);
這種等待方式對driver的整個生命週期都起作用,一次設定整個週期都遵從,因此往往會使等待時間變得很長

webdriverwait().until(***xx);
可以定時檢查等待條件是否滿足然後判斷是否往下執行**

​ ​

爬蟲的一點經驗

1.寫乙個網頁爬蟲的時候遇到了乙個div巢狀問題,即乙個大的div裡面有很多小的div,如 xx x 這樣乙個型別,如果爬取內層的div是很簡單的,正規表示式十分好寫 div 但是如果要爬取外面的div該怎麼辦呢?當時我的做法是繼續尋找,找出該段內容後面的具有識別該段內容能力的內容。如上式,在正規表...

關於Python做爬蟲的一點基礎

報名了學院的p2p專案,所以只能被迫去學python了。在此記錄一下我的學習流程,免得自己日後忘記了 python中至少應當有一行特殊形式的注釋,組織行 user bin python雙引號中字串與單引號中的字串使用完全相同 同一層次的語句必須有相同的縮排量,每一組語句成為乙個塊 raw input...

入門python爬蟲之前的最後一點小掙扎 一

陸陸續續學習python已經快有半年了,期間也一直沒有做什麼有趣好玩的專案,最近在github看到許許多多的爬蟲專案,於是便想來趟趟這坑 1.init 的用法 主要有兩個作用 物件週期的初始化重要的一步和引數可以有多種形式 每乙個python的類都有乙個超類object 某些時候超類的特殊方法是我們...