爬取豆瓣TOP50

import requests
from bs4 import beautifulsoup
import time
import json
#定義執行函式
def result():
#定義起始url的page引數和終了的page引數，並在引數符合條件的情況下進行迴圈
page=0
pages=250
while page<=pages:
#豆瓣的url是可以通過改變start的引數實現的
url=f''
print('正在爬取%s'%)
soup=beautifulsoup(html,'lxml')
print(soup)
ol=soup.find('ol')
lis=ol.find_all('li')
#讀出每一步電影的資訊，並把換位符、空格等去掉，並寫入txt檔案中
for li in lis:
content=[li.find('em').text.strip(),
li.select('a')[1].text.replace('\n',''),
''.join(li.find('p').text.replace('\n','').split()),
li.select('span.rating_num')[0].text.strip(),
li.select('div.star span')[3].text.strip()
]write_to_file(content) 
page+=25
time.sleep(1)
else:
print('爬取完畢')
#定義寫入函式，將電影的資訊寫入txt檔案
def write_to_file(content):
with open('doubantop250.txt','a',encoding='utf-8') as f:
for i in content:
f.write(json.dumps(format(i).strip())+ 20*' ')
f.write('\n')
def main():
result()
if __name__=='__main__':
main()

爬取豆瓣Top250

requests庫可以自動爬取html頁面，自動網路請求提交。安裝方法 pip install requests requests庫主要有7個方法首先開啟網頁豆瓣top250 然後f12，得到如下圖我們要找的內容在紅框裡面。這個頁面有25個電影，第乙個頁面第二個頁面我們可以觀察到每個頁面...

爬取豆瓣top250

案例實現需求要爬取豆瓣top250的電影資訊資料標題評分引言詳情頁的url 10頁的資料都要爬取並寫入到csv檔案中第一頁第二頁第三頁第四頁一共是250條 25頁分析 page 1 25 總結第乙個 str格式化的運用解決辦法先是找規律進行格式化的替換 douba...

爬取豆瓣TOP250書單

小白學習爬蟲爬取豆瓣top250的書，正好本人也喜歡看書思路分析這是top250第一頁的鏈結 start 25第二頁的鏈結 start 50第三頁的鏈結將第一頁鏈結改為?start 0也是可以訪問的，每一頁數字加25，構建10頁如下 urls start format str i for ...

爬取豆瓣TOP50

爬取豆瓣Top250

爬取豆瓣top250

爬取豆瓣TOP250書單

相關推薦