1 爬蟲資料提取方法總結

在獲取了我們想要的html頁面之後，接下來的問題就是如何將我們需要的資料給提取下來，一般來說有三種方式，分別是xpath語法，正規表示式和bs4庫，只要掌握了這三種方法，可以說html頁面上沒有什麼資料是我們獲取不到的。

我們來對這三種方式做乙個簡單的總結：

解析方式

解析速度

難度xpath快中等

bs4慢

容易re(正規表示式)

最快困難

實際上，這三種方式都可以從html頁面上獲取我們想要的資料，但是由於其基於的原理不太一樣，所以他們在解析html頁面的時候速度頁不太一樣，一般來說，解析越快的，用起來肯定越難，解析越慢的，用起來肯定更簡單一些，這個呢也是很多其它語言等的規律，得到了一方面的效能，就要損失一些東西，所謂「魚與熊掌不可兼得」。

個人偏向於使用xpath語法，其次是正規表示式，bs4用的不是很多。因為對於大多數**來說，使用xpath語法已然足夠，除非當xpath不好提取的時候，選擇使用正規表示式進行提取，當然，在乙個資料提取中，我們可以使用混合方式進行資料提取，比如，既使用xpath語法也使用正規表示式，也可以三者皆用，這個取決於個人的偏好及html頁面提取的難易程度。

1 爬蟲資料提取方法總結

selenium提取資料的方法總結

資料提取方法多程序多執行緒爬蟲

python爬蟲六正則提取資料

1 爬蟲資料提取 方法總結

selenium提取資料的方法總結

資料提取方法 多程序多執行緒爬蟲

python爬蟲 六 正則提取資料

相關推薦

1 爬蟲資料提取方法總結

資料提取方法多程序多執行緒爬蟲

python爬蟲六正則提取資料