Python 爬蟲 xpath bs4 re小實戰

2022-09-11 21:42:31 字數 2626 閱讀 7179

1

#爬取糗事百科**(前5頁)   ·##利用正規表示式

2import requests #

請求資料

4from urllib import request #

5import re #正則6

#糗事百科**位址7#

普通get請求獲取

8 k =0

9for i in range(1,6):

10 url = f'

'11#ua偽裝防止識破

12 headers =15#

獲取響應物件response

16 res = requests.get(url, headers=headers)17#

利用正規表示式findall,返回列表,re.s 是用來在html中的/t/n等解決方式

## bs4 文件

1

#爬取糗事百科**(前5頁)       ##利用bs4

2import requests #

請求資料

3from bs4 import beautifulsoup #

資料分析

4from urllib import request #5#

糗事百科**位址6#

普通get請求獲取

7 k =0

8for i in range(1,6):

9 url = '

'10#ua偽裝防止識破

11 headers =14#

獲取響應物件response

15 res = requests.get(url, headers=headers)

16 text =res.text17#

例項化beautifulsoup物件

18 soup = beautifulsoup(text,"

lxml")

19#尋找相關資料

20 img_urls = soup.find_all(class_="

illustration")

21#遍歷位址

22for img_url in

img_urls:

23 k += 124#

拼接完整位址

#爬取糗事百科**(前5頁)

2import requests #

請求資料

3from lxml import etree#

資料分析

4from urllib import request #5#

糗事百科**位址6#

普通get請求獲取

7 k =0

8for i in range(1,6):

9 url = '

'10#ua偽裝防止識破

11 headers =14#

獲取響應物件response

15 res = requests.get(url, headers=headers)

16 text =res.text17#

將字串格式的檔案轉化為html文件

python爬蟲的xpath bs4 re方法

1.re正規表示式 正規表示式分析 找開始和結束標籤,兩個標籤之間把想要的內容需要包含進來,然後依次查詢分析。pat r 使用findall方法查詢符合要求的全部內容,放置到乙個列表 divlist re.findall pat,html,re.s re.s 是.匹配包括換行之內的所有字元 2.xp...

python爬蟲 非同步爬蟲

壞處 無法無限制的開啟多執行緒或者多程序。執行緒池 程序池 適當使用 使用非同步實現高效能的資料爬取操作 人多力量大 環境安裝 pip install aiohttp 使用該模組中的clientsession 2表示同時存在兩個協程 pool pool 2 urls for i in range 1...

Python爬蟲 初識爬蟲

模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料 瀏覽器開啟網頁的過程 當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果 瀏覽器傳送訊息給...