中國大學排名定向爬取

2021-10-02 15:48:34 字數 1465 閱讀 1317

步驟一:從網路上獲取大學排名網頁內容

步驟二:提取網頁內容中資訊到合適的資料結構

步驟三:利用資料結構展示並輸出結果

通過右鍵檢視其網頁源**,可得到如下介面:

我們在這個介面找到如下資訊,可以發現,這些資訊是在tbody標籤下的,tr下面的td中就是我們想要爬取的資訊。

我們僅爬取前四個td值進行返回,第乙個是排名,第二是學校名稱,第三是辦學省(市),第四是分數,程式如下:

import requests

from bs4 import beautifulsoup

import bs4

def gethtmltext(url):

try:

r = requests.get(url, timeout=30)

r.raise_for_status()

return r.text

except:

return ""

def fillunivlist(ulist, html):

soup = beautifulsoup(html, 'html.parser')

for tr in soup.find('tbody').children:

if isinstance(tr, bs4.element.tag):

tds = tr('td')

def printunivlist(ulist, num):

# print("\t\t\t".format("排名", "學校名稱", "地點", "得分"))

tplt = "\t^10}\t\t"

print(tplt.format("排名", "學校名稱", "地點", "得分", chr(12288)))

for i in range(num):

u = ulist[i]

# print("\t\t\t".format(u[0], u[1], u[2], u[3]))

print(tplt.format(u[0], u[1], u[2], u[3], chr(12288)))

def main():

uinfo =

url = ''

html = gethtmltext(url)

fillunivlist(uinfo, html)

printunivlist(uinfo, 20) # 只列印20所

main()

執行結果如下:

中國大學排名的爬取

功能描述 輸入 大學排名的url鏈結 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 進隊輸入url進行爬取,不擴充套件爬取 程式的結構設計 步驟一 從網路上獲取頁面資訊 gethtmltext 步驟二 提取網頁內容中資訊到合適的資料結構 fillu...

中國大學定向排名爬取

功能描述 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 開啟 發現不存在 可以爬 程式的結構設計 步驟1 從網路上獲取大學排名網頁內容 gethtmltext 步驟2 提取網頁內容中資訊到合適的資料結構 fillunivlist 步驟3 利用資料結構展示並輸出結果 printunivlist ...

爬取中國大學排名(前567)

import requests from bs4 import beautifulsoup import re alluniv def gethtmltext url try r requests.get url,timeout 30 r.raise for status r.encoding ut...