爬取程式語言排名

2021-10-17 06:49:42 字數 1608 閱讀 3928

# 定向爬蟲,爬取程式語言的排名

import requests

# 引用bs4庫中的beautifulsoup類

from bs4 import beautifulsoup

# 引用bs4庫

import bs4

# 定義獲得網頁文字的函式

# 需要的引數是網頁的url

# 返回的是網頁資訊

defgethtmltext

(url)

:try

: r=requests.get(url)

# 用raise_for_status產生異常資訊

r.raise_for_status(

)# 改變文件為資訊體的合適的編碼

return r.text

except

:return

""# 需要網頁資料和list表(這個資料結構用於訪問目標資料)

deffillunivlist

(ulist,html)

: soup=beautifulsoup(html,

"html.parser"

)# 獲得資料 (在)

for tr in soup.find(

'tbody'

).children:

# 這裡進行對非標籤進行排除

ifisinstance

(tr, bs4.element.tag)

:# 解析tr行中包含資料的td

tds = tr(

'td'

)[tds[0]

.string, tds[1]

.string, tds[3]

.string]

)# 將list資料列印出來

defprintunivlist

(ulist,num)

: tplr =

"\t\t"

tplt =

"\t^10}\t"

print

(tplr.

format

("2021排名"

,"2020排名"

,"程式語言"

,chr

(12288))

)for i in

range

(num)

: u = ulist[i]

# replace(待替換,替換,最多次數)

# replace(' ','').replace("\n","") 將空格和換行替換成無

print

(tplt.

format

(u[0

], u[1]

, u[2]

,chr

(12288))

)def

main()

:# 預先安置的乙個列表物件,用於爬取的資料

uinfo =

url =

''html = gethtmltext(url)

fillunivlist(uinfo,html)

printunivlist(uinfo,10)

# 程式開始的地方

main(

)

大學排名資訊爬取

import requests from bs4 import beautifulsoup import bs4 defgethtmltext url try r requests.get url r.raise for status return r.text except return def ...

python爬取大學排名

返回載入出來的資料 def gethtmltext url return 解析列表 def fillunivlist ulist,html pass 列印資料 def printunivlist ulist,num pass 進行呼叫函式,返回結果 def main unifo url 載入html...

Python簡單爬取貓眼電影排名

1 匯入需要的庫 import requests import re import json requests 用來實現url的請求,就相當於我們輸入 瀏覽網頁。re 使用正規表示式抓取我們想要的資料。json 因為請求連線返回的是 json 型別的字串,因此我們需要用json庫轉換成普通字串儲存。...