中國大學排名定向爬蟲

2022-09-11 16:36:20 字數 1461 閱讀 1795

功能描述:

輸入:大學排名url鏈結

輸出:大學排名資訊的螢幕輸出(排名,大學名稱,總分)

技術路線:requests+bs4

定向爬蟲:僅對輸入url進行爬取,不擴充套件爬取

程式的結構設計:

步驟1:從網路上獲取大學排名網頁內容

gethtmltext()

步驟2:提取網頁內容中資訊到合適的資料結構

fillunivlist

步驟3:利用資料結構展示並輸出結果

printunivlist()

import

requests

from bs4 import

beautifulsoup

import

bs4def

gethtmltext(url):

try:

r = requests.get(url, timeout = 30)

r.raise_for_status()

return

r.text

except

:

return

""def

fillunivlist(ulist, html):

soup = beautifulsoup(html, "

html.parser")

for tr in soup.find('

tbody

').children: #

遍歷tbody子節點列表

if isinstance(tr, bs4.element.tag): #

判斷兩個型別是否相同

tds = tr('

td') #

等價於tds = tr.find_all('td'),返回乙個列表

defprintunivlist(ulist, num):

tplt = "

\t^8}\t"#

解決中文字元對齊問題

print(tplt.format("

排名", "

學校名稱

", "

總分", chr(12288)))

for i in

range(num):

u =ulist[i]

print(tplt.format(u[0], u[1], u[2], chr(12288)))

defmain():

uinfo =

url = '

'html =gethtmltext(url)

fillunivlist(uinfo, html)

printunivlist(uinfo, 10)

main()

輸出:

爬蟲例項(中國大學排名定向排名)

功能 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入的url進行爬取,不擴充套件爬取 步驟 1.從網路上獲取大學排名網頁內容 2.提取網頁中資訊到合適的資料結構 3.利用資料結構展示並輸出結果 程式的結構設計 1.從網路上獲取大學排名網頁內...

中國大學排名定向爬蟲例項

第乙個大學 第n個大學 import requests from bs4 import beautifulsoup import bs4 def gethtmltext url 輸入url,返回html try r requests.get url,timeout 30 r.raise for st...

Python 中國大學排名定向爬蟲

來自於中國大學mooc北京理工大學pythont教學團隊 1.函式版 中國大學定向爬蟲 import requests from bs4 import beautifulsoup import bs4 defgethtmltext url try r requests.get url,timeout...