網路爬蟲資訊提取之例項大學排名012

2021-10-05 08:32:18 字數 2461 閱讀 4583

#導入庫

import requests

from bs4 import beautifulsoup

import bs4

#定義第乙個函式:獲得網頁的html詳細**(可以這麼說)

def gethtmltext(url):

try:

r = requests.get(url,timeout=30)

r.raise_for_status()

return r.text

except:

return ""

#定義函式獲得排名、學校、省份三個資訊

def fillunivlist(ulist,html):

#對html**進行美化

soup = beautifulsoup(html,'html.parser')

#迭代tbody標籤的每個孩子標籤

for tr in soup.find('tbody').children:

#判斷是不是標籤型別,如果是執行下一步

if isinstance(tr,bs4.element.tag):

#對tr標籤的td標籤做查詢

tds = tr('td')

#把查詢到的前三個標籤的內容新增到列表中

#定義函式輸出功能

def printunivlist(ulist,num):

#首先輸出屬性

print("\t\t".format("排名","學校","名次"))

#迴圈輸出學校的前20個

for i in range(num):

u = ulist[i]

print("\t\t".format(u[0],u[1],u[2]))

print("suc"+str(num))

#定義執行主函式

def main():

uinfo =

url =""

html = gethtmltext(url)

fillunivlist(uinfo,html)

printunivlist(uinfo,20)

main()

優化:

**:

#導入庫

import requests

from bs4 import beautifulsoup

import bs4

#定義第乙個函式:獲得網頁的html詳細**(可以這麼說)

def gethtmltext(url):

try:

r = requests.get(url,timeout=30)

r.raise_for_status()

return r.text

except:

return ""

#定義函式獲得排名、學校、省份三個資訊

def fillunivlist(ulist,html):

#對html**進行美化

soup = beautifulsoup(html,'html.parser')

#迭代tbody標籤的每個孩子標籤

for tr in soup.find('tbody').children:

#判斷是不是標籤型別,如果是執行下一步

if isinstance(tr,bs4.element.tag):

#對tr標籤的td標籤做查詢

tds = tr('td')

#把查詢到的前三個標籤的內容新增到列表中

#定義函式輸出功能

def printunivlist(ulist,num):

tplt = "\t^10}\t"

#首先輸出屬性,chr(12288)

print(tplt.format("排名","學校","名次",chr(12288)))

#迴圈輸出學校的前20個

for i in range(num):

u = ulist[i]

print(tplt.format(u[0],u[1],u[2],chr(12288)))

print("suc"+str(num))

#定義執行主函式

def main():

uinfo =

url =""

html = gethtmltext(url)

fillunivlist(uinfo,html)

printunivlist(uinfo,20)

main()

4爬蟲例項 大學排名

輸入 大學排名 的url鏈結 輸出 大學排名資訊的螢幕輸出 排名,學校名稱,總分 技術 requests bs4 此為定向爬蟲,僅對給定的url進行爬取,不擴充套件爬取 步驟1 獲取網頁內容 gethtmltext 步驟2 提取所需內容並放入合適的資料結構中fillunivlist 步驟3 展示結果...

爬蟲例項(中國大學排名定向排名)

功能 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入的url進行爬取,不擴充套件爬取 步驟 1.從網路上獲取大學排名網頁內容 2.提取網頁中資訊到合適的資料結構 3.利用資料結構展示並輸出結果 程式的結構設計 1.從網路上獲取大學排名網頁內...

爬蟲 中國大學排名定向爬蟲例項

最好大學排名 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入url進行爬取,不擴充套件爬取 bs4只能獲取靜態url資訊 步驟1 從網路上獲取大學排名網頁內容 定義gethtmltext 步驟2 提取網頁內容中資訊到合適的資料結構 定義fi...