Python 爬蟲 2023年中國大學排名

2021-10-09 10:15:27 字數 2003 閱讀 2365

要爬取的**:2020軟科中國大學排名

**思路均來自:北京理工大學-python網路爬蟲與資訊提取(mooc)對爬蟲感興趣的可以去看一下。

爬蟲的第一步首先要檢查所爬取的**是否有爬蟲協議(robots協議),爬取人家的東西,還是要看看人家**上那些東西是不能爬的。

檢查2020軟科中國大學排名的爬蟲協議得到結果如下:

從結果中可以知道2020軟科中國大學排名是沒有爬蟲協議的,可以爬取想要的內容。但是無論乙個**是否有爬蟲協議,不該爬的東西一定不要爬,這是乙個君子協議。

以下是全部**:

import requests

from bs4 import beautifulsoup

import bs4

#程式內容:中國大學排名

#獲取網頁內容

defgettext

(url)

:try

: r = requests.get(url,timeout =30)

r.raise_for_status(

) except

:print

('爬取失敗!'

)return r.text

#將獲取得網頁篩選想要的內容,並新增到乙個列表中

defneedlist

(ulist,html)

:try

: soup = beautifulsoup(html,

'html.parser'

)for tr in soup.find(

'tbody'

).children:

#print(type(tr))

ifisinstance

(tr,bs4.element.tag)

:#將不是bs4.element.tag的內容剔除

tds = tr(

'td'

)[tds[0]

.string,tds[1]

.string,tds[2]

.string,tds[3]

.string,tds[4]

.string]

)except

:print

('網頁解析失敗!'

)#輸出

defprintlist

(ulist,num)

:try

: tplt =

" \t\t\t\t"

print

(tplt.

format

("排名"

,'學校名稱'

,'省市'

,'學校型別'

,'總分'

,chr

(12288))

)for i in

range

(num)

: u = ulist[i]

print

(tplt.

format

(u[0

], u[1]

, u[2]

, u[3]

, u[4]

,chr

(12288))

)except

:print

('輸出發生問題!'

)#主函式

defmain()

: ulist =

url =

''html = gettext(url)

needlist(ulist,html)

printlist(ulist,10)

main(

)

最終的結果:

注:

本文只用於交流學習,不作其他用途。

2023年中國品牌定位公司哪家好

品牌定位是市場定位的核心和集中表現。是企業在市場定位和產品定位的基礎上,對特定的品牌在文化取向及個性程式設計客棧差異上的商業性決策,它是建立乙個與目標市場有關的品牌形象的過程和結果。品牌定位公司為企業客戶創造價值的核心能力在於其專業深度 創造力和實戰力。品牌定位公司要能夠洞察發現客戶發現不了的行業趨...

2023年中國IT的市場機會

背景 烏雲籠罩 始於2006 年春季的次貸危機,是一場源於次級抵押貸款機構破產 投資 被迫關閉 劇烈 的風暴。2009 年全球經濟增長將進一步放緩,北美 西歐 日本的 gdp增長都將降低至 1 以下。受全球經濟的影響,中國也不能獨善其身,經濟增長開始放緩,2008 年上半年,中國約有 7萬家中小企業...

2023年中國深圳LED透明屏品牌排行榜

2020年度全國led透明屏品牌排行,此次評選依託行業口碑及線上資料,綜合參考企業研發 生產 服務 工程案例 市場占有率等方面。如果您正在查詢led透明屏廠家哪家好?那麼2020年中國深圳led透明屏品牌排行榜,可供你作為選購參考,讓你選的放心。以下排序不分先後 綜合實力得分排 況 參考品牌影響力 ...