Python爬蟲小例項爬高校排名

程式目的：獲取大學排名網頁內容，並格式化輸出。

讀懂以下程式需提前了解requests庫和beautifulsoup庫，在《網路爬蟲與資訊提取課程》有提供相關知識。

from bs4 import beautifulsoup
import bs4
import requests
def gethtmltext(url):
try:
r = requests.get(url) # 得到的r是乙個包含伺服器資源的response物件
r.raise_for_status() # 如果狀態碼不是200，則丟擲異常
return r.text
except:
return ''
def fillunivlist(ulist, html):
soup = beautifulsoup(html, 'html.parser') # 解析html文件的內容
for tr in soup.find('tbody').children: # 迴圈遍歷'tbody'標籤中的所有兒子標籤或字串
if isinstance(tr, bs4.element.tag): # 如果是標籤
tds = tr('td') # 找到該標籤下的所有'td'標籤，返回形式為列表
def printunivlist(ulist, num):
tplt = '\t^10}\t'
print(tplt.format('排名', '學校名稱', '總分', chr(12288))) # chr(12288)是中文空格。這裡的意思是用中文空格填充
for i in range(num):
u = ulist[i]
print(tplt.format(u[0], u[1], u[2], chr(12288)))
if __name__ == '__main__':
uinfo = 
url = ''
html = gethtmltext(url)
fillunivlist(uinfo, html)
printunivlist(uinfo, 20)

執行結果：

幾個爬蟲小例項

學習北理的爬蟲課，其中幾個例項自己實現了一下，打一下基礎 1.京東商品頁面的爬取 import requests url try r requests.get url r.raise for status print r.text 1000 except print 爬取失敗 2.爬取亞馬遜商品頁面...

Python爬蟲例項

中國大學排名專案功能描述輸出大學排名資訊的螢幕輸出排名，大學名稱，總分技術路線 requests bs4 定向爬蟲僅對輸入url進行爬取，不擴充套件爬取程式的結構設計步驟1 從網路上獲取大學排名網頁內容步驟2 提取網頁內容中資訊到合適的資料結構二維列表步驟3 利用資料結構展示並...

python 爬蟲例項

coding utf 8 import re import sys import os from time import sleep from bs4 import beautifulsoup import requests reload sys sys.setdefaultencoding utf...

Python爬蟲小例項 爬高校排名

幾個爬蟲小例項

Python爬蟲例項

python 爬蟲例項

相關推薦

Python爬蟲小例項爬高校排名