定向爬蟲網路爬蟲例項1

1.獲取網頁內容

gethtmltext()

2.獲取網路內容資訊並儲存到合適的資料結構中

fillunivlist()

3.利用資料結構展示並輸出結果

printunivlist()

import requests
from bs4 import beautifulsoup
import bs4
def gethtmltext(url):
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = 'utf-8'
return r.text
except:
return ''
def fillunivlist(ulist, html):
soup = beautifulsoup(html,'html.parser')
trs = soup.find('tbody').children
for tr in trs:
if isinstance(tr,bs4.element.tag):
#tds = tr.find_all("td")
#find_all可用於標籤物件
tds = tr('td') #find_all()的簡寫
#chr(12288)表示採用中文字元空格填充
def printunivlist(ulist,num):
tplt = "\t^10}\t" 
print(tplt.format("排名","學校名稱","總分",chr(12288)))
for i in range(num):
list = ulist[i]
print(tplt.format(list[0],list[1],list[2],chr(12288)))
def main():
url = ''
ulist = 
r = gethtmltext(url)
fillunivlist(ulist, r)
printunivlist(ulist, 20)
if __name__ == '__main__':
main()

定向爬蟲例項之中國大學排名定向爬蟲

定向爬蟲指的是只針對所給的url的頁面爬取，不擴充套件爬取的爬蟲。給的例子的網頁採用靜態頁面的方式，是非常好的學習例子。本次例項的要求 url import requests from bs4 import beautifulsoup import os import re import bs4程式...

爬蟲中國大學排名定向爬蟲例項

最好大學排名輸出大學排名資訊的螢幕輸出排名，大學名稱，總分技術路線 requests bs4 定向爬蟲僅對輸入url進行爬取，不擴充套件爬取 bs4只能獲取靜態url資訊步驟1 從網路上獲取大學排名網頁內容定義gethtmltext 步驟2 提取網頁內容中資訊到合適的資料結構定義fi...

網路爬蟲（1）爬蟲與HTTP

聚焦爬蟲聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如獲取豆瓣上電影的名稱和影評，而不是獲取整張頁面中所有的資料值。增量式爬蟲增量式是用來檢測資料更新的情況，且可以將更新的資料進行爬取後期會有章節單獨對其展開詳細的講解即有權規定中哪些內容可以被爬蟲抓取，哪些內容不可以被爬蟲抓取...

定向爬蟲 網路爬蟲例項1

定向爬蟲例項之中國大學排名定向爬蟲

爬蟲 中國大學排名定向爬蟲例項

網路爬蟲（1） 爬蟲與HTTP

相關推薦

定向爬蟲網路爬蟲例項1

爬蟲中國大學排名定向爬蟲例項

網路爬蟲（1）爬蟲與HTTP