爬取豆瓣TOP50

2021-10-02 11:58:32 字數 1187 閱讀 2145

import requests

from bs4 import beautifulsoup

import time

import json

#定義執行函式

def result():

#定義起始url的page引數和終了的page引數,並在引數符合條件的情況下進行迴圈

page=0

pages=250

while page<=pages:

#豆瓣的url是可以通過改變start的引數實現的

url=f''

print('正在爬取%s'%)

soup=beautifulsoup(html,'lxml')

print(soup)

ol=soup.find('ol')

lis=ol.find_all('li')

#讀出每一步電影的資訊,並把換位符、空格等去掉,並寫入txt檔案中

for li in lis:

content=[li.find('em').text.strip(),

li.select('a')[1].text.replace('\n',''),

''.join(li.find('p').text.replace('\n','').split()),

li.select('span.rating_num')[0].text.strip(),

li.select('div.star span')[3].text.strip()

]write_to_file(content)

page+=25

time.sleep(1)

else:

print('爬取完畢')

#定義寫入函式,將電影的資訊寫入txt檔案

def write_to_file(content):

with open('doubantop250.txt','a',encoding='utf-8') as f:

for i in content:

f.write(json.dumps(format(i).strip())+ 20*' ')

f.write('\n')

def main():

result()

if __name__=='__main__':

main()

爬取豆瓣Top250

requests庫可以自動爬取html頁面,自動網路請求提交。安裝方法 pip install requests requests庫主要有7個方法 首先開啟網頁 豆瓣top250 然後f12,得到如下圖 我們要找的內容在紅框裡面。這個頁面有25個電影,第乙個頁面 第二個頁面 我們可以觀察到 每個頁面...

爬取豆瓣top250

案例實現 需求 要爬取豆瓣top250的電影資訊資料 標題 評分 引言 詳情頁的url 10頁的資料 都要爬取 並寫入到csv檔案中 第一頁 第二頁 第三頁 第四頁 一共是250條 25頁 分析 page 1 25 總結 第乙個 str格式化的運用 解決辦法 先是找規律 進行格式化的替換 douba...

爬取豆瓣TOP250書單

小白學習爬蟲 爬取豆瓣top250的書,正好本人也喜歡看書 思路分析 這是top250第一頁的鏈結 start 25第二頁的鏈結 start 50第三頁的鏈結 將第一頁鏈結改為?start 0也是可以訪問的,每一頁數字加25,構建10頁 如下 urls start format str i for ...