python網路爬蟲與資訊提取 學習筆記day3

2022-06-15 22:21:24 字數 1483 閱讀 7850

day3:

只需兩行**解析html或xml資訊    具體**實現:day3_1    注意beautifulsoup的b和s需要大寫,因為python大小寫敏感

import requests

r= requests.get("")

r.text

demo = r.text

from bs4 import beautifulsoup

soup = beautifulsoup(demo , "html.parser")

print(soup.prettify())

beautifulsoup庫的基本元素:詳參html的基本資訊

from bs4 import beautifulsoup        語句含義:從bs4庫中引入乙個beautifulsoup的型別

下行遍歷,上行遍歷和平行遍歷:

爬取中國大學排名

import requests

from bs4 import beautifulsoup

import bs4

def gethtmltext(url):

try:

r = requests.get(url, timeout=30)

r.raise_for_status()

return r.text

except:

return ""

def fillunivlist(ulist, html):

soup = beautifulsoup(html, "html.parser")

for tr in soup.find('tbody').children:

if isinstance(tr, bs4.element.tag):

tds = tr('td')

def printunivlist(ulist, num):

print("\t\t".format("排名","學校名稱","總分"))

for i in range(num):

u=ulist[i]

print("\t\t".format(u[0],u[1],u[2]))

def main():

uinfo =

url = ''

html = gethtmltext(url)

fillunivlist(uinfo, html)

printunivlist(uinfo, 20) # 20 univs

main()

Python網路爬蟲與資訊提取(2) 爬蟲協議

上一節學習了requests庫,這一節學習robots協議 宣告robots協議,一般放在 的根目錄下,robots.txt檔案 京東robots鏈結 user agent disallow disallow pop html disallow pinpai html?user agent etao...

python網路爬蟲(四) 資訊標記與資訊提取

方式 說明應用領域 xml最早的通用資訊標記語言,可擴充套件性好,但繁瑣 internet上資訊的互動與傳遞 json 資訊有型別,適合程式處理 js 比xml簡潔 移動應用雲端和節點的資訊通訊,無注釋 yaml 資訊無型別,文字資訊比例最高,可讀性好 各類系統的配置檔案,有注釋易讀 二.資訊提取的...

Python網路爬蟲與資訊提取MOOC學習 預備

一 ide 概念 integrated development environment整合開發環境 提供了程式開發環境的應用程式,一般包括 編輯器 編譯器 偵錯程式和圖形使用者介面等工具。整合了 編寫功能 分析功能 編譯功能 除錯功能等一體化的開發軟體服務套。二 python的ide分類 文字工具類...