python爬蟲 豆瓣

2021-10-07 04:25:35 字數 941 閱讀 1717

在爬蟲時候,通過requests.get()得到不正確的狀態碼:

4**:表示出錯

[異常狀態碼檢視]

?fr=aladdin#4_19)

用requests庫的get()函式抓取乙個你平時經常使用的**主頁,並檢視該**的爬蟲協議(如果有的話)。預設答案是正確,你成功了嗎?(●』◡』●)

fp.write(r.content)b. 有些**會對http請求的headers的user-agent進行檢測,需將headers資訊傳遞給get函式的headers引數,例如豆瓣最近也有了此要求,例如知乎,直接訪問會返回400,加上headers引數後可正確返回:

>>

> re = requests.get(

'')>>

> re.status_code

400

>>

> headers =

>>

> re = requests.get(

'', headers = headers)

>>

> re.status_code

200

反爬的策略還有很多,需要逐漸熟悉,有些**要想獲得資料還需要登入,需要分析登入需要的屬性。

c. 被js渲染過的頁面內容獲取

可以通過瀏覽器的「開發者工具」功能尋找真正提供資料的頁面,有時會有一定的難度。

python爬蟲 豆瓣電影

最近學習python 順便寫下爬蟲練手 爬的是豆瓣電影排行榜 python版本2.7.6 安裝 beautiful soup sudo apt get install python bs4 安裝 requests sudo apt get install python requests下面是py a...

python爬蟲登入豆瓣(一)

使用 第三方庫 requests 通過使用 chrome 瀏覽器抓包,可以得到這個請求,將其中的 headers 和 data 提交。最後輸出到 douban.html 的檔案中,即可檢視登入的介面。這次請求是第一次登入,所有介面為提示修改個人資訊。將賬號和密碼改為自己的帳號和密碼 data hos...

python 爬蟲 豆瓣讀書使用者評分爬蟲

首先我們先建立接下來需要用的的東西 import requests 匯入requests模組用於請求網頁 from lxml import etree 從lxml模組中匯入etree模組用於解析網頁 class userspinfen 定義乙個douban類,用於承載後面的 def init sel...