爬蟲爬取豆瓣網評論內容

1、找到我們想要爬取的電影---小哪吒

分析出來全部影評的介面位址

#登入請求位址

s =requests.session()

url = '

'#請求頭headers =

#body資料

data =

#傳送請求

r = s.post(url,headers=headers,data=data)

#url2 = '

'r2 = s.get(url2,headers=headers).content

匯入pyquery解析html內容，分析html資料

影評內容在class=『short』中

已經分析出來我們想要的資料在**，那麼接下來就是提取資料了

#
解析html
doc =pq(r2)
items = doc('
.comment-item
').items()
#迴圈讀取資訊
for i in
items:
# name = i('
.comment-info a
').text()
print
(name)
# content = i('
.short
').text()
print(content)

這個地方用到的知識點寫入應該不用在具體說了；

url1：

url2：

通過對比我們發現分頁通過start這個引數進行控制，這次我們通過while進行控制分頁內容

import
requests
from pyquery import
pyquery as pq
import
time
import
random
s =requests.session()
defdata_html():
url = '
'headers =
data =
r = s.post(url,headers=headers,data=data,verify =false)
if'安靜'
inr.text:
print('
登入成功')
else
: 
print('
登入失敗')
def data_shuju(count=0):
print('
開始爬取第%d頁
' %int(count))
start = int(count * 20)
headers =
url2 = '
' %(start)
r2 = s.get(url2,headers=headers).content
doc =pq(r2)
items = doc('
.comment-item
').items()
for i in
items:
name = i('
.comment-info a
').text()
ifnot
name:
return
0content= i('
.short
').text()
with open(
'12.txt
','a+
',encoding='
utf-8
')as f:
f.write(
':\n\n\n
'.format(name=name,content=content)) return 1 
def data_data(): 
data_html() 
count = 0 
while data_shuju(count): 
count += 1 
time.sleep(random.random() * 3) 
print('
爬取完畢
') data_data()

電影芳華豆瓣評論爬取

沒有被善待的人，最容易識別善良，也最珍惜善良。適合帶長輩們看，或許多少年後，就沒人再拍這樣的電影了後面半小時淚彈太足，我們在最好的年代虛度光陰，他們在最壞的年代洗盡鉛華。這條短評跟影片無關舉報import requests from bs4 import beautifulsoup import...

python爬蟲爬取豆瓣網電影資訊

豆瓣網如下 import requests import urllib.request if name main 指定ajax get請求的url 通過抓包進行獲取 url 定製請求頭資訊，相關的頭資訊必須封裝在字典結構中 headers import requests import urllib...

python爬蟲爬取豆瓣網電影詳情

url 當滾輪滑動到底部時候頁面會發起ajax請求且請求一組電影詳情資料當滾輪不滾動時候頁面顯示的電影資料通過瀏覽器位址列的url發起的請求是請求不到的基於抓包工具進行全域性搜尋，鎖定動態載入資料對應的資料報即可，從資料報中可以提取請求的url和請求方式請求引數直接對位址列發起請求就...

爬蟲 爬取豆瓣網評論內容

電影芳華豆瓣評論爬取

python爬蟲 爬取豆瓣網電影資訊

python爬蟲 爬取豆瓣網電影詳情

相關推薦

爬蟲爬取豆瓣網評論內容

python爬蟲爬取豆瓣網電影資訊

python爬蟲爬取豆瓣網電影詳情