入門級爬蟲抓取豆瓣top250 的電影資訊

import requests
import lxml.html
from bs4 import beautifulsoup
import re
import bs4
from pymongo import mongoclient
defreq
(url, param):
resp = requests.get(url, params=param).text
return resp
defget_data
(data):
#得到你要抓取內容然塊
source_soup = beautifulsoup(data, 'html.parser')
data_ol = source_soup.ol
films = 
for tag_li in data_ol:
if isinstance(tag_li, bs4.element.tag):
datas = lxml.html.fromstring(str(tag_li.contents))
#得到電影名字
names = 
name1 = datas.xpath('//span[@class="title"]/text()')
name2 = datas.xpath('//span[@class="other"]/text()')
#得到電影導演及主演的資訊
info = datas.xpath('//p[@class=""]/text()')
#得到電影的評分及評分人數
star = datas.xpath('//span[@class="rating_num"]/text()')
num = re.search('(.*)', str(data_ol.contents)).group(1)
#得到電影的名句
quote = datas.xpath('//span[@class="inq"]/text()')
#將資訊存入乙個字典
film_info = 
return films
cli = mongoclient('localhost', 27017)
db = cli.films
for i in range(1, 11):
param = 
url = ''
db.films2.insert(get_data(req(url, param)))
print("spider success")

使用bs4, lxml.html.xpath, requests

還請各位看客多多指教，

Python 爬蟲抓取豆瓣讀書TOP250

coding utf 8 author yukun import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 def get html url 偽裝成瀏覽器訪問 resp requests.get url,headers heade...

豆瓣top250簡易爬蟲

1.爬取目標是豆瓣top250 只要電影的名字 python基礎檔案操作，字串拼接，for和while迴圈 requests庫的基礎使用 re庫的使用 import requests import re url start num 0while start num 225 拼接url parame...

豆瓣top250資料爬蟲

設計思路重點及難點解決方法對於沒有推薦理由的影片，程式會報錯，使用try except 語句進行異常捕捉，出現異常時返回沒有推薦理由的文字資訊。使用python內建模板os的方法makedirs 新建資料夾路徑實際 from urllib import request import os i...

入門級爬蟲 抓取豆瓣top250 的電影資訊

Python 爬蟲 抓取豆瓣讀書TOP250

豆瓣top250簡易爬蟲

豆瓣top250資料爬蟲

相關推薦

入門級爬蟲抓取豆瓣top250 的電影資訊

Python 爬蟲抓取豆瓣讀書TOP250