爬蟲 爬取豆瓣網評論內容

2022-06-27 19:42:14 字數 2466 閱讀 3585

1、找到我們想要爬取的電影---小哪吒

分析出來全部影評的介面位址

#登入請求位址

s =requests.session()

url = '

'#請求頭headers =

#body資料

data =

#傳送請求

r = s.post(url,headers=headers,data=data)

#url2 = '

'r2 = s.get(url2,headers=headers).content

匯入pyquery解析html內容,分析html資料

影評內容在class=『short』中

已經分析出來我們想要的資料在**,那麼接下來就是提取資料了

#

解析html

doc =pq(r2)

items = doc('

.comment-item

').items()

#迴圈讀取資訊

for i in

items:

# name = i('

.comment-info a

').text()

print

(name)

# content = i('

.short

').text()

print(content)

這個地方用到的知識點寫入應該不用在具體說了;

url1:

url2:

通過對比我們發現分頁通過start這個引數進行控制,這次我們通過while進行控制分頁內容

import

requests

from pyquery import

pyquery as pq

import

time

import

random

s =requests.session()

defdata_html():

url = '

'headers =

data =

r = s.post(url,headers=headers,data=data,verify =false)

if'安靜'

inr.text:

print('

登入成功')

else

:

print('

登入失敗')

def data_shuju(count=0):

print('

開始爬取第%d頁

' %int(count))

start = int(count * 20)

headers =

url2 = '

' %(start)

r2 = s.get(url2,headers=headers).content

doc =pq(r2)

items = doc('

.comment-item

').items()

for i in

items:

name = i('

.comment-info a

').text()

ifnot

name:

return

0content= i('

.short

').text()

with open(

'12.txt

','a+

',encoding='

utf-8

')as f:

f.write(

':\n\n\n

'.format(name=name,content=content)) return 1

def data_data():

data_html()

count = 0

while data_shuju(count):

count += 1

time.sleep(random.random() * 3)

print('

爬取完畢

') data_data()

電影芳華豆瓣評論爬取

沒有被善待的人,最容易識別善良,也最珍惜善良。適合帶長輩們看,或許多少年後,就沒人再拍這樣的電影了 後面半小時淚彈太足,我們在最好的年代虛度光陰,他們在最壞的年代洗盡鉛華。這條短評跟影片無關 舉報import requests from bs4 import beautifulsoup import...

python爬蟲 爬取豆瓣網電影資訊

豆瓣網 如下 import requests import urllib.request if name main 指定ajax get請求的url 通過抓包進行獲取 url 定製請求頭資訊,相關的頭資訊必須封裝在字典結構中 headers import requests import urllib...

python爬蟲 爬取豆瓣網電影詳情

url 當滾輪滑動到底部時候 頁面會發起ajax請求 且請求一組電影詳情資料 當滾輪不滾動時候 頁面顯示的電影資料 通過瀏覽器位址列的url發起的請求是請求不到的 基於抓包工具進行全域性搜尋,鎖定動態載入資料對應的資料報即可,從資料報中可以提取請求的url和請求方式 請求引數 直接對位址列發起請求就...