Python Python網路爬蟲(二)

2021-10-03 06:14:54 字數 2120 閱讀 3968

#

# 中國大學排名定向爬蟲

# url:

#import requests

from bs4 import beautifulsoup

import bs4

# 獲取html

defgethtmltext

(url)

:try

: r = requests.get(url, timeout =30)

r.raise_for_status

return r.text

except

:return

"產生異常"

# 將html中相關資訊填充到列表中,具體標籤資訊需要你先開啟網頁進行簡單的分析

# 如本html中的資訊在tbody-tr-td標籤中

deffillunivlist

(ulist, html)

: soup = beautifulsoup(html,

"html.parser"

)for tr in soup.find(

"tbody"

).children:

# 過濾掉非標籤型別的tr

ifisinstance

(tr, bs4.element.tag)

: tds = tr(

'td'

)[tds[0]

.string, tds[1]

.string, tds[3]

.string]

)# 將列表中資訊進行列印,利用python中字串格式化方法format(),進行格式化

# format()詳見:

defprintunivlist

(ulist, num)

: tplt =

"^10}"

print

(tplt.

format

("排名"

,"學校名稱"

,"總分"

,chr

(12288))

)# chr(12288)為採用中文字元進行空格填充

for i in

range

(num)

: u = ulist[i]

print

(tplt.

format

(u[0

], u[1]

, u[2]

,chr

(12288))

)if __name__ ==

"__main__"

: unifo =

url =

""html = gethtmltext(url)

fillunivlist(unifo, html)

printunivlist(unifo,20)

# 爬取前20名

排名       學校名稱       總分

1    清華大學    94.6

2    北京大學    76.5

3    浙江大學    72.9

4   上海交通大學   72.1

5    復旦大學    65.6

6  中國科學技術大學  60.9

7   華中科技大學   58.9

7    南京大學    58.9

9    中山大學    58.2

10  哈爾濱工業大學   56.7

11  北京航空航天大學  56.3

12    武漢大學    56.2

13    同濟大學    55.7

14   西安交通大學   55.0

15    四川大學    54.4

16   北京理工大學   54.0

17    東南大學    53.6

18    南開大學    52.8

19    天津大學    52.3

20   華南理工大學   52.0

i春秋python python爬取i春秋帖子名稱

import requests from bs4 import beautifulsoup import re url headers r requests.get url url,headers headers print r.status code soup beautifulsoup r.co...

python requests網路爬取

1.京東商品頁面的爬取 import requests url try r requests.get url r.raise for status print r.encoding print r.text 1000 except print 爬取失敗 2.亞馬遜商品頁面的爬取 import req...

MATLAB 爬取網路資料

by hpc zy 以優酷為例 url 資料所在 重點內容 sourcefile webread url 獲取所有資料 disp sourcefile 顯示資料 去除空白字元 選用 輸入對應的 正規表示式 進行檢索 expr data regexp sourcefile,expr,match tok...