大學排名爬蟲

2021-08-20 12:37:05 字數 986 閱讀 6708

import requests

import re

import bs4

from bs4 import beautifulsoup

#提交url獲得html頁面

def gethtmltext(url):

try:

r = requests.get(url,timeout = 30)

r.raise_for_status()

return r.text

except:

return "error"

#html頁面結構化提取存入ulist裡面

def fillunivlist(ulist,html):

soup = beautifulsoup(html,"lxml") 

for tr in soup.find('tbody').children:

#判斷tr是否為標籤型別

if isinstance(tr,bs4.element.tag):

tds = tr('td')

#將ulist裡面的內容列印輸出

def printunivlist(ulist,num):

#定義輸出模板為變數tplt,\t為橫向製表符,^為中間對齊,10為每列的寬度,0,1,2代表format的格式

tplt = "\t^10}\t"

print(tplt.format("排名","學校","總分",chr(12288)))

for i in range(num):

u = ulist[i]

print(tplt.format(u[0],u[1],u[2],chr(12288)))

def main():

uinfo =

url = ""

html = gethtmltext(url)

fillunivlist(uinfo,html)

printunivlist(uinfo,20)

main()

中國部分大學排名爬蟲

目標 如下 1 import requests 引入requests庫 2from bs4 import beautifulsoup 3import bs4 引入bs4庫 4def gethtmltext url 獲得網頁內容的函式 5try 6 r requests.get url,timeout...

4爬蟲例項 大學排名

輸入 大學排名 的url鏈結 輸出 大學排名資訊的螢幕輸出 排名,學校名稱,總分 技術 requests bs4 此為定向爬蟲,僅對給定的url進行爬取,不擴充套件爬取 步驟1 獲取網頁內容 gethtmltext 步驟2 提取所需內容並放入合適的資料結構中fillunivlist 步驟3 展示結果...

爬蟲中國大學排名

from pip.vendor import requests print 訪問谷歌 獲取response物件 r requests.get x 1 while x 20 print 第 str x 次的返回狀態列印 str r.status code print 第 str x 次的text 列印...