Python編寫網路爬蟲帶model

分析**的**結構：如**，需要採集的**取，建設使用谷歌瀏覽器

如圖：

解釋：1.為**欄，分析**的相同部分及不同部分

2.為按f12檢視原始碼，為需要採集的**

from reptiletest import qu
url=""
for i in range(1,423):
if i==1:
url="/?m=vod-index.html"
else:
url="/?m=vod-index-pg-"+str(i)+".html"
qu(url,i)

import urllib.request
from requl import requ
def qu(jia,ii):
print("正在獲取第：" + str(ii) + "頁的電影資訊")
url = ""+jia
req = urllib.request.request(url)
res = urllib.request.urlopen(req)
html = res.read().decode("utf-8", 'ignore')
# print(html)
requ(html)
print("獲取第："+str(ii)+"頁的電影資訊結束")

import urllib.request
from bs4 import beautifulsoup
def requ(html):
web = beautifulsoup(html, features="html.parser")
# print("開始抓取")
daima = web.select("ul > li > span > a")
for h in daima:
# 通過主頁進入某個電影的資訊頁面
url1 = "/" + h.get("href")
req1 = urllib.request.request(url1)
res1 = urllib.request.urlopen(req1)
html1 = res1.read().decode("utf-8", 'ignore')
web1 = beautifulsoup(html1, features="html.parser")
# daima1 = web1.select("div[class=vodinfo]")
# print(daima1)
# 獲取電影
daima1 = web1.select("img[class=lazy]")
for dao in daima1:
dao.get("src")
# 獲取電影名稱
daima1 = web1.select("div[class=vodh] > h2")
for dai in daima1:
print(dai.get_text())
daima1 = web1.select("div[class=vodh] > span")
for dai in daima1:
print(dai.get_text())
# 獲取評分
daima1 = web1.select("div[class=vodh] > label")
for dai in daima1:
print(dai.get_text())
# 獲取別名
daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(1) > span")
for dai in daima1:
print(dai.get_text())
# 獲取導演
daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(2) > span")
for dai in daima1:
print(dai.get_text())
# 獲取主演
daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(3) > span")
for dai in daima1:
print(dai.get_text())
# 獲取電影型別
daima1 = web1.select("div[class=vodinfobox] > ul > li:nth-of-type(4) > span")
for dai in daima1:
print(dai.get_text())
# ****
#

抓取結束：

用 Python 編寫網路爬蟲筆記

每個都應該提供 api，然而這是不可能的即使提供了 api，往往也會限速，不如自己找介面 robots.txt 中可能會有陷阱 sitemap 中可能提供了重要的鏈結乙個簡便方法是使用 site example.com 查詢，然而這種方法對於大戰不適用 builtwith 模組 pip ins...

Python網路爬蟲

找到url，也就是相當於入口，找到你要爬取的鏈結，獲取整個頁面資料使用正規表示式，匹配到你想要爬取的內容，這裡使用的主要是正規表示式和一些常用的開源庫最後一步就是寫入文字以及儲存問題了，如文字檔案資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...

python網路爬蟲

這篇部落格簡單的實現了乙個網路爬蟲指令碼，所謂網路爬蟲就是從某乙個頁面通常是首頁開始，讀取網頁的內容，找到在網頁中的其它鏈結位址，然後通過這些鏈結位址尋找下乙個網頁，這樣一直迴圈下去，直到把這個所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是，從爬去尋找關鍵...

Python編寫網路爬蟲帶model

用 Python 編寫網路爬蟲 筆記

Python網路爬蟲

python網路爬蟲

相關推薦

用 Python 編寫網路爬蟲筆記