4爬蟲例項 大學排名

2021-09-07 23:30:07 字數 867 閱讀 5205

輸入:大學排名**的url鏈結

輸出:大學排名資訊的螢幕輸出(排名,學校名稱,總分)

技術:requests-bs4

此為定向爬蟲,僅對給定的url進行爬取,不擴充套件爬取

步驟1:獲取網頁內容 gethtmltext()

步驟2:提取所需內容並放入合適的資料結構中fillunivlist()

步驟3:展示結果 printunivlist()

import requests

from bs4 import beautifulsoup使用bs4庫中的beautifulsoup類

import bs4 為了使用bs4庫中的標籤型別定義

解決編碼問題

import sys

reload(sys)

sys.setdefaultencoding(「utf-8」)

def printunivlist(ulist,num):

^10意思是長度10

tplt="\t\t"

採用中文字元填充空格補齊chr(12288),自動補齊會預設英文空格補齊

print(tplt.format(「排名」,「學校名稱」,「總分」,chr(12288)))

實現表頭的列印

for i in range(num):

u=ulist[i]

print(tplt.format(u[0],u[1],u[2],char(12288)))

def main():

uinfo=

url=』』

html=gethtmltext(url)

fillunivlist(uinfo,html)

printunivlist(uinfo,20)

main()

大學排名爬蟲

import requests import re import bs4 from bs4 import beautifulsoup 提交url獲得html頁面 def gethtmltext url try r requests.get url,timeout 30 r.raise for sta...

爬蟲例項(中國大學排名定向排名)

功能 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入的url進行爬取,不擴充套件爬取 步驟 1.從網路上獲取大學排名網頁內容 2.提取網頁中資訊到合適的資料結構 3.利用資料結構展示並輸出結果 程式的結構設計 1.從網路上獲取大學排名網頁內...

爬蟲 中國大學排名定向爬蟲例項

最好大學排名 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入url進行爬取,不擴充套件爬取 bs4只能獲取靜態url資訊 步驟1 從網路上獲取大學排名網頁內容 定義gethtmltext 步驟2 提取網頁內容中資訊到合適的資料結構 定義fi...