定向爬蟲 網路爬蟲例項1

2022-02-06 03:42:57 字數 1137 閱讀 8812

1.獲取網頁內容

gethtmltext()

2.獲取網路內容資訊並儲存到合適的資料結構中

fillunivlist()

3.利用資料結構展示並輸出結果

printunivlist()

import requests

from bs4 import beautifulsoup

import bs4

def gethtmltext(url):

try:

r = requests.get(url)

r.raise_for_status()

r.encoding = 'utf-8'

return r.text

except:

return ''

def fillunivlist(ulist, html):

soup = beautifulsoup(html,'html.parser')

trs = soup.find('tbody').children

for tr in trs:

if isinstance(tr,bs4.element.tag):

#tds = tr.find_all("td")

#find_all可用於標籤物件

tds = tr('td') #find_all()的簡寫

#chr(12288)表示採用中文字元空格填充

def printunivlist(ulist,num):

tplt = "\t^10}\t"

print(tplt.format("排名","學校名稱","總分",chr(12288)))

for i in range(num):

list = ulist[i]

print(tplt.format(list[0],list[1],list[2],chr(12288)))

def main():

url = ''

ulist =

r = gethtmltext(url)

fillunivlist(ulist, r)

printunivlist(ulist, 20)

if __name__ == '__main__':

main()

定向爬蟲例項之中國大學排名定向爬蟲

定向爬蟲指的是只針對所給的url的頁面爬取,不擴充套件爬取的爬蟲。給的例子的網頁採用靜態頁面的方式,是非常好的學習例子。本次例項的要求 url import requests from bs4 import beautifulsoup import os import re import bs4程式...

爬蟲 中國大學排名定向爬蟲例項

最好大學排名 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入url進行爬取,不擴充套件爬取 bs4只能獲取靜態url資訊 步驟1 從網路上獲取大學排名網頁內容 定義gethtmltext 步驟2 提取網頁內容中資訊到合適的資料結構 定義fi...

網路爬蟲(1) 爬蟲與HTTP

聚焦爬蟲 聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如 獲取豆瓣上電影的名稱和影評,而不是獲取整張頁面中所有的資料值。增量式爬蟲 增量式是用來檢測 資料更新的情況,且可以將 更新的資料進行爬取 後期會有章節單獨對其展開詳細的講解 即 有權規定 中哪些內容可以被爬蟲抓取,哪些內容不可以被爬蟲抓取...