python 爬取網頁排名定向爬蟲(6)

2021-10-02 13:52:02 字數 1959 閱讀 6388

定義:定向爬蟲可以精準的獲取目標站點資訊。僅對輸入url進行爬取,不拓展爬取。

【中國的大學排名爬取】

1 檢視網頁是否對爬蟲有限制

1.檢視 robots.txt

無robots.txt檔案說明無爬蟲限制

2.檢視原網頁

要提取的資訊被封裝在html內

2.程式的結構設計

步驟1:從網路上獲取大學排名網頁內容

步驟2:提取網頁內容中資訊到合適的資料結構(二維資料)

步驟3:利用資料結構展示並輸出結果

屬於二維資料

import requests

from bs4 import beautifulsoup

import bs4

defgethtmltext

(url)

:#獲取該網頁內容

try:

r=requests.get(url,timeout=30)

r.raise_for_status(

) return r.text

except

:return

""def

fillunivlist

(ulist,html)

:#提取網頁內容中的資訊到合適的資料結構

soup=beautifulsoup(html,

"html.parser"

)for tr in soup.find(

'tbody'

).children:

#所有大學的資訊都封裝在tbody的標籤下

ifisinstance

(tr,bs4.element.tag)

:#因為標籤中含有字串型別,需要過濾掉除了標籤資訊的其他型別

tds=tr(

'td'

)#列表型別tds

[tds[0]

.string,tds[1]

.string,tds[2]

.string]

)#把所需的標籤資訊存入ulist

print

(ulist)

defprintunivlist

(ulist,num)

:#利用資料結構展示並輸出num個結果

print

("\t\t"

.format

("排名"

,"學校名稱"

,"總分"))

for i in

range

(num)

: u=ulist[i]

print

("\t\t"

.format

(u[0

],u[1]

,u[2])

)def

main()

: uinfo=

#存入大學資訊

Python 爬取網頁

先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...

中國大學定向排名爬取

功能描述 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 開啟 發現不存在 可以爬 程式的結構設計 步驟1 從網路上獲取大學排名網頁內容 gethtmltext 步驟2 提取網頁內容中資訊到合適的資料結構 fillunivlist 步驟3 利用資料結構展示並輸出結果 printunivlist ...

Python 爬取網頁資訊

對於本次學習爬蟲中的一些總結 1.要熟練掌握基礎知識,包括一些基礎的語法 2.正規表示式的正確使用,建議學習北理工的python爬蟲課程 3.先寫大框架再新增小的功能解析 4.對程式異常處理要熟練,盡量使用try.excep結構 5.對於列表字串資料的基本使用到位,比如增刪改查等 6.思路必須清晰 ...