requests和bs4的python爬蟲入門

2021-07-23 19:43:14 字數 1711 閱讀 4322

現在就簡單的講下這幾個月的學習成果嘛~~~

爬蟲其實爬的都是源**,然後再通過對源**進行過濾,得出我們想要的東西~

有時會需要一些正則的東西~

這裡面有一些lazyload的,就需要 selenium webdriver 什麼的了,這個還沒研究到哈,勿噴勿噴。

上面的答案也有提到過,用requests和bs4寫爬蟲真的是傻瓜爬蟲系列。

就是很容易了~~ 但是無論寫什麼程式,都得把文件讀一遍先,個人認為這倆個文件還是很友好的~

requests文件

快速上手 — requests 2.10.0 文件

beautifulsoup文件

beautiful soup 4.4.0 文件

首先引入這倆模組

from bs4 import beautifulsoup

import requests

然後要給requests個url,告訴他我要爬取那個url的原始碼,假如就是這個問題的答案把

url = ''

有時候還要偽裝個header一起傳給伺服器,

user-agent 就是瀏覽器版本,cookie就是本地終端上的資料

這兩個開f12 的network 點doc 然後就應該能看得到了

headers =

然後就可以用requests進行爬取了

data = requests.get(url, headers=headers)

其實這個data是個response 物件

需要.text一下再交給 bs4

soup = beautifulsoup(data.text, 'lxml')

之後就能用soup.select 進行選擇了,

要是不會寫selector 最簡單的方法,開f12 右鍵 copy > copy selector

例如我們寫個簡單的獲取的。

imgs = soup.select('div.zm-editable-content > img')

這個soup.select 返回的是乙個list,所以你要for in 迴圈一下

比如把它的link都放在乙個list裡

img_link = 

for i in imgs:

如果你爬被反爬的話,還可以 引入time 讓程式睡一會

import time

time.sleep(4)

源**就在這裡啦~~

pythonspider/4zhihuimgs.py at master · yangzhedi/pythonspider · github

我的乙個小python爬蟲庫,各種各樣的,還在入門中~~不過歡迎star和issue哈~~

github - yangzhedi/pythonspider: some python spiders with beautifulsoup

star我~~我會維護好你們的時間線的~

bs4和xpath的用法

1.bs4的運用 流程 1.匯入相應的模組 from bs4 import beautifulsoup 2.例項化乙個 beautifulsoup 物件,並將我們要解析的資料載入到該物件中 soup beautifulsoup 要解析的資料 lxml 解析器 3.定位標籤 1 通過標籤名定位 sou...

爬蟲架構 bs4

方便解析html xml等格式的原始碼,快速查詢 修改等操作,節省數小時乃至更多的工作時間 官網文件 from bs4 import beautifulsoup print path beautifulsoup path 非真實網頁 html doc 夏日炎炎,要你幹嘛 print soup.hea...

爬蟲 bs4模組

安裝 pip3 install beautifulsoup4 解析html和xml,修改html和xmlimport requests from bs4 import beautifulsoup 文件容錯能力,不是乙個標準的html也能解析 soup beautifulsoup html doc,l...