入門級爬蟲 抓取豆瓣top250 的電影資訊

2021-07-27 16:54:20 字數 1344 閱讀 6283

import requests

import lxml.html

from bs4 import beautifulsoup

import re

import bs4

from pymongo import mongoclient

defreq

(url, param):

resp = requests.get(url, params=param).text

return resp

defget_data

(data):

#得到你要抓取內容然塊

source_soup = beautifulsoup(data, 'html.parser')

data_ol = source_soup.ol

films =

for tag_li in data_ol:

if isinstance(tag_li, bs4.element.tag):

datas = lxml.html.fromstring(str(tag_li.contents))

#得到電影名字

names =

name1 = datas.xpath('//span[@class="title"]/text()')

name2 = datas.xpath('//span[@class="other"]/text()')

#得到電影導演及主演的資訊

info = datas.xpath('//p[@class=""]/text()')

#得到電影的評分及評分人數

star = datas.xpath('//span[@class="rating_num"]/text()')

num = re.search('(.*)', str(data_ol.contents)).group(1)

#得到電影的名句

quote = datas.xpath('//span[@class="inq"]/text()')

#將資訊存入乙個字典

film_info =

return films

cli = mongoclient('localhost', 27017)

db = cli.films

for i in range(1, 11):

param =

url = ''

db.films2.insert(get_data(req(url, param)))

print("spider success")

使用bs4, lxml.html.xpath, requests

還請各位看客多多指教,

Python 爬蟲 抓取豆瓣讀書TOP250

coding utf 8 author yukun import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 def get html url 偽裝成瀏覽器訪問 resp requests.get url,headers heade...

豆瓣top250簡易爬蟲

1.爬取目標是豆瓣top250 只要電影的名字 python基礎 檔案操作,字串拼接,for和while迴圈 requests庫的基礎使用 re庫的使用 import requests import re url start num 0while start num 225 拼接url parame...

豆瓣top250資料爬蟲

設計思路 重點及難點 解決方法 對於沒有推薦理由的影片,程式會報錯,使用try except 語句進行異常捕捉,出現異常時返回沒有推薦理由的文字資訊。使用python內建模板os的方法makedirs 新建資料夾路徑 實際 from urllib import request import os i...