python爬蟲案例（二）大學排名

小菜鳥從乙個個案例來練習爬蟲，心路是曲折的，555

在爬蟲案例（一）中，是用urllib進行的。本案例中應用的是requests庫，它會比urllib更加方便，requests是python實現的最簡單易用的http庫，建議爬蟲使用requests庫。

1.安裝requests庫。

python沒有安裝requests模組，可以在cmd視窗通過：pip install requests 語句進行安裝，用來爬取網頁內容。

類似的，安裝第三方庫beautifulsoup4用來將爬取的網頁內容分析處理：pip install beautifulsoup4。

2.寫出案例**如下：

（該案例源**來自

import requests
from bs4 import beautifulsoup
alluniv =
defgethtmltext
(url)
:try
: response = requests.get(url,timeout=30)
response.encoding=
'utf-8'
if response.status_code ==
200:
#如果狀態碼是200，不產生異常
return response.text
return
none
except requestexception:
print
("請求索引頁錯誤"
)return
none
deffillunivlist
(soup)
: data = soup.find_all(
'tr'
)#檢視html原始碼：資訊在html中以table形式存在，每個學校資訊是一行，存放在tr中，單元格資訊存放在td中
for tr in data:
ltd = tr.find_all(
'td')if
len(ltd)==0
:continue 
singleuniv =
for td in ltd:
defprintunivlist
(num)
:print(""
.format
("排名"
,"學校名稱"
,"省市"
,"學校型別"
,"總分"))
for i in
range
(num)
: u=alluniv[i]
print(""
.format
(u[0
],u[1]
,u[2
],u[3]
,u[4])
)def
main()
: url =
''html = gethtmltext(url)
soup = beautifulsoup(html,
"html.parser"
)#使用bs4庫中beautifulsoup類，生成乙個物件。
fillunivlist(soup)
printunivlist(10)
#輸出排名前10的學校
main(
)

結果為：

排名學校名稱省市學校型別總分 1 清華大學北京綜合 852.5 2 北京大學北京綜合 746.7 3 浙江大學浙江綜合 649.2 4 上海交通大學上海綜合 625.9 5 南京大學江蘇綜合 566.1 6 復旦大學上海綜合 556.7 7 中國科學技術大學安徽理工 526.4 8 華中科技大學湖北綜合 497.7 9 武漢大學湖北綜合 488.0 10 中山大學廣東綜合 457.2

python爬蟲案例（二）大學排名

Python爬蟲 2019大學排名資料抓取

Python爬蟲中國大學排名爬蟲

Python之爬蟲中國大學排名

python爬蟲案例（二） 大學排名

Python爬蟲 2019大學排名資料抓取

Python爬蟲 中國大學排名爬蟲

Python之爬蟲 中國大學排名

相關推薦

python爬蟲案例（二）大學排名

Python爬蟲中國大學排名爬蟲

Python之爬蟲中國大學排名