Python編寫網路爬蟲帶model

2021-09-01 13:24:58 字數 2561 閱讀 7914

分析**的**結構:如**,需要採集的**取,建設使用谷歌瀏覽器

如圖:

解釋:1.為**欄,分析**的相同部分及不同部分

2.為按f12檢視原始碼,為需要採集的**

from reptiletest import qu

url=""

for i in range(1,423):

if i==1:

url="/?m=vod-index.html"

else:

url="/?m=vod-index-pg-"+str(i)+".html"

qu(url,i)

import urllib.request

from requl import requ

def qu(jia,ii):

print("正在獲取第:" + str(ii) + "頁的電影資訊")

url = ""+jia

req = urllib.request.request(url)

res = urllib.request.urlopen(req)

html = res.read().decode("utf-8", 'ignore')

# print(html)

requ(html)

print("獲取第:"+str(ii)+"頁的電影資訊結束")

import urllib.request

from bs4 import beautifulsoup

def requ(html):

web = beautifulsoup(html, features="html.parser")

# print("開始抓取")

daima = web.select("ul > li > span > a")

for h in daima:

# 通過主頁進入某個電影的資訊頁面

url1 = "/" + h.get("href")

req1 = urllib.request.request(url1)

res1 = urllib.request.urlopen(req1)

html1 = res1.read().decode("utf-8", 'ignore')

web1 = beautifulsoup(html1, features="html.parser")

# daima1 = web1.select("div[class=vodinfo]")

# print(daima1)

# 獲取電影

daima1 = web1.select("img[class=lazy]")

for dao in daima1:

dao.get("src")

# 獲取電影名稱

daima1 = web1.select("div[class=vodh] > h2")

for dai in daima1:

print(dai.get_text())

daima1 = web1.select("div[class=vodh] > span")

for dai in daima1:

print(dai.get_text())

# 獲取評分

daima1 = web1.select("div[class=vodh] > label")

for dai in daima1:

print(dai.get_text())

# 獲取別名

daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(1) > span")

for dai in daima1:

print(dai.get_text())

# 獲取導演

daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(2) > span")

for dai in daima1:

print(dai.get_text())

# 獲取主演

daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(3) > span")

for dai in daima1:

print(dai.get_text())

# 獲取電影型別

daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(4) > span")

for dai in daima1:

print(dai.get_text())

# ****

#

抓取結束:

用 Python 編寫網路爬蟲 筆記

每個 都應該提供 api,然而這是不可能的 即使提供了 api,往往也會限速,不如自己找介面 robots.txt 中可能會有陷阱 sitemap 中可能提供了重要的鏈結 乙個簡便方法是使用 site example.com 查詢,然而這種方法對於大戰不適用 builtwith 模組 pip ins...

Python網路爬蟲

找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...

python網路爬蟲

這篇部落格簡單的實現了乙個網路爬蟲指令碼,所謂網路爬蟲就是從 某乙個頁面 通常是首頁 開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是,從爬去尋找關鍵...