python爬蟲的xpath bs4 re方法

2021-08-29 07:59:27 字數 714 閱讀 2760

1.re正規表示式

# 正規表示式分析: 找開始和結束標籤,兩個標籤之間把想要的內容需要包含進來,然後依次查詢分析。

pat = r'(.*?)'

# 使用findall方法查詢符合要求的全部內容,放置到乙個列表

divlist = re.findall(pat,html,re.s) #re.s : 是.匹配包括換行之內的所有字元

2.xpath(scrapy自帶的)

next=response.xpath("//li[@class='next']/a/@href").extract()[0]
extract(): 序列化該節點為unicode字串並返回list。

3.bs4

bsoup = beautifulsoup(dataopen, "html.parser")
datas = bsoup.find_all("div", ) #獲取所有這個標籤,再遍歷解析

for x in datas:

print(x)

childimg = x.find("img").get("src")

pathpic1 = childimg.split("/")[-1]

filepath1 = os.path.join("d:\putweb", pathpic1)

urllib.request.urlretrieve(childimg,filepath1)

python爬蟲 非同步爬蟲

壞處 無法無限制的開啟多執行緒或者多程序。執行緒池 程序池 適當使用 使用非同步實現高效能的資料爬取操作 人多力量大 環境安裝 pip install aiohttp 使用該模組中的clientsession 2表示同時存在兩個協程 pool pool 2 urls for i in range 1...

Python爬蟲 初識爬蟲

模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料 瀏覽器開啟網頁的過程 當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果 瀏覽器傳送訊息給...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...