簡單爬蟲學習 思維篇 壹

2021-08-29 10:21:13 字數 537 閱讀 6143

1、找到某**的跟路徑;

1、xpath使用;(xml和html都支援)比正規表示式強大而簡單;

2、多執行緒爬取;

lxml就是xpath的庫名稱。

匯入方式:from lxml import etree

使用方式:

1、selector = etree.html(網頁**)

2、selector.xpath(」這裡是路徑,舉例如下「)

//:表示定位到根節點

/:下一級

/:文字

@:屬性開頭,相當於字典的鍵

舉例:selector.xpath("//ul[2][@id =「name1」]/li[3]/text()")

理解為:在根路徑下,找到第二個ul中id為name1下,找到第三個li中的文字。

以相同字元開頭

starts-with(@屬性)

標籤套標籤

from multiprocessing.dummy import

多執行緒操作下,所取到的資料沒有必然順序,都是在哥哥執行緒上各自搶負荷。

簡單爬蟲學習

寫在前面 快放假了,這兩天心血來潮,自己也想學習一下爬資料,nlp裡資料才是王道,所以自己也寫了乙個爬蟲爬取21財經的某個頻道的新聞資料,僅作為學習爬蟲用。1 爬蟲的組成 解析主列表頁面,解析詳細頁面,儲存資料 2 使用requests獲取頁面,使用正則或者beautifulsoup解析頁面,都挺方...

python開發簡單爬蟲 準備篇

乙個簡單爬蟲的架構圖如下所示 簡單爬蟲架構的動態執行流程如下圖所示 url管理器 管理待爬取的url集合和以爬取的url集合。作用是防止重複爬取和迴圈爬取。乙個url管理器應該具有以下幾個功能 關聯式資料庫 快取資料庫 方法1 最簡潔的方法 coding utf 8 import urllib2 直...

Python簡單爬蟲學習

爬蟲 一段自動抓取網際網路資訊的程式。爬蟲排程器 程式入口,主要負責爬蟲程式的控制 url管理器 管理帶抓取url集合和已抓取的url集合。url實現的功能有 1.新增新的url到待爬去集合 2.判斷待新增url是否已存在 3.判斷是否還有待爬的url,將url從待爬集合移動到已爬集合 url的儲存...