Python爬蟲初步探索

朋友有個爬資料填表的需求，想讓我實現一下，正好python在爬蟲上應用廣泛，我也可以藉此練練手。

2023年的第一天，開工。

小目標：每日定時爬取某網頁中乙個**中指定資料。

早上，先了解了各種爬蟲技術（其實就是第三方庫）的差異、優缺點，發現功能上基本類似或者有交集。

在查閱資料過程中，發現requests庫的作者又有個新庫——requests-html。so，決定了，用requests-html。

安裝requests-html，pip安裝即可。（過程中因為本地之前裝了幾個python環境，pip命令無法正常使用。想到以後專案、包、環境都要管理，所以最好開始使用anaconda，這就是另乙個blog了）

上**，參考

from requests_html import htmlsession
session = htmlsession(
)r = session.get(
'')print
(r.html.html)

元素的id = su，使用find函式中，css選擇器的引數填入』#su』，取出attribute為』value』，**如下

from requests_html import htmlsession
session = htmlsession(
)r = session.get(
'')searchword = r.html.find(
'#su'
, first=
true
)print
(searchword.attrs[
'value'
])

但是這種方式的缺點也很明顯，要爬取資料的css選擇器要逐個去尋找，不能模糊匹配、模糊查詢、向上父級標籤遍歷。應該有更好的解析html方法，以後繼續研究（xpath等）。另外，朋友的需求中，有網頁登入賬戶、爬取滾動重新整理資訊等技術未完全解決。

貼幾個鏈結

doc：

模擬登入

解析html模糊查詢、匹配（在後半部分）

Python爬蟲初步探索

初步嘗試python爬蟲

python爬蟲入門初步採集

python爬蟲入門初步認識

Python爬蟲初步探索

初步嘗試python爬蟲

python爬蟲入門 初步採集

python爬蟲入門初步認識

相關推薦

python爬蟲入門初步採集