Python Python網路爬蟲（二）

#
# 中國大學排名定向爬蟲
# url：
#import requests
from bs4 import beautifulsoup
import bs4
# 獲取html
defgethtmltext
(url)
:try
: r = requests.get(url, timeout =30)
r.raise_for_status
return r.text
except
:return
"產生異常"
# 將html中相關資訊填充到列表中，具體標籤資訊需要你先開啟網頁進行簡單的分析
# 如本html中的資訊在tbody-tr-td標籤中
deffillunivlist
(ulist, html)
: soup = beautifulsoup(html,
"html.parser"
)for tr in soup.find(
"tbody"
).children:
# 過濾掉非標籤型別的tr
ifisinstance
(tr, bs4.element.tag)
: tds = tr(
'td'
)[tds[0]
.string, tds[1]
.string, tds[3]
.string]
)# 將列表中資訊進行列印，利用python中字串格式化方法format()，進行格式化
# format()詳見：
defprintunivlist
(ulist, num)
: tplt =
"^10}"
print
(tplt.
format
("排名"
,"學校名稱"
,"總分"
,chr
(12288))
)# chr(12288)為採用中文字元進行空格填充
for i in
range
(num)
: u = ulist[i]
print
(tplt.
format
(u[0
], u[1]
, u[2]
,chr
(12288))
)if __name__ ==
"__main__"
: unifo =
url =
""html = gethtmltext(url)
fillunivlist(unifo, html)
printunivlist(unifo,20)
# 爬取前20名

排名　　　學校名稱　　　總分 1 　　　清華大學　　　 94.6 2 　　　北京大學　　　 76.5 3 　　　浙江大學　　　 72.9 4 　　上海交通大學　　 72.1 5 　　　復旦大學　　　 65.6 6 　中國科學技術大學　 60.9 7 　　華中科技大學　　 58.9 7 　　　南京大學　　　 58.9 9 　　　中山大學　　　 58.2 10 　哈爾濱工業大學　　 56.7 11 　北京航空航天大學　 56.3 12 　　　武漢大學　　　 56.2 13 　　　同濟大學　　　 55.7 14 　　西安交通大學　　 55.0 15 　　　四川大學　　　 54.4 16 　　北京理工大學　　 54.0 17 　　　東南大學　　　 53.6 18 　　　南開大學　　　 52.8 19 　　　天津大學　　　 52.3

20 　　華南理工大學　　 52.0

Python Python網路爬蟲（二）

i春秋python python爬取i春秋帖子名稱

python requests網路爬取

MATLAB 爬取網路資料

Python Python網路爬蟲（二）

i春秋python python爬取i春秋帖子名稱

python requests網路爬取

MATLAB 爬取網路資料

相關推薦