Python爬蟲小例項 爬高校排名

2022-06-12 13:39:11 字數 1199 閱讀 9071

程式目的:獲取大學排名網頁內容,並格式化輸出。

讀懂以下程式需提前了解requests庫和beautifulsoup庫,在《網路爬蟲與資訊提取課程》有提供相關知識。

from bs4 import beautifulsoup

import bs4

import requests

def gethtmltext(url):

try:

r = requests.get(url) # 得到的r是乙個包含伺服器資源的response物件

r.raise_for_status() # 如果狀態碼不是200,則丟擲異常

return r.text

except:

return ''

def fillunivlist(ulist, html):

soup = beautifulsoup(html, 'html.parser') # 解析html文件的內容

for tr in soup.find('tbody').children: # 迴圈遍歷'tbody'標籤中的所有兒子標籤或字串

if isinstance(tr, bs4.element.tag): # 如果是標籤

tds = tr('td') # 找到該標籤下的所有'td'標籤,返回形式為列表

def printunivlist(ulist, num):

tplt = '\t^10}\t'

print(tplt.format('排名', '學校名稱', '總分', chr(12288))) # chr(12288)是中文空格。這裡的意思是用中文空格填充

for i in range(num):

u = ulist[i]

print(tplt.format(u[0], u[1], u[2], chr(12288)))

if __name__ == '__main__':

uinfo =

url = ''

html = gethtmltext(url)

fillunivlist(uinfo, html)

printunivlist(uinfo, 20)

執行結果:

幾個爬蟲小例項

學習北理的爬蟲課,其中幾個例項自己實現了一下,打一下基礎 1.京東商品頁面的爬取 import requests url try r requests.get url r.raise for status print r.text 1000 except print 爬取失敗 2.爬取亞馬遜商品頁面...

Python爬蟲例項

中國大學排名專案 功能描述 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入url進行爬取,不擴充套件爬取 程式的結構設計 步驟1 從網路上獲取大學排名網頁內容 步驟2 提取網頁內容中資訊到合適的資料結構 二維列表 步驟3 利用資料結構展示並...

python 爬蟲例項

coding utf 8 import re import sys import os from time import sleep from bs4 import beautifulsoup import requests reload sys sys.setdefaultencoding utf...