(三)文字標記與提取方法 python爬蟲實戰

2021-10-10 17:52:47 字數 2267 閱讀 9065

>

… name

>

/>

‐‐>

例項:>

>

tianfirstname

>

>

songlastname

>

>

>

中關村南大街5號streetaddr

>

>

北京市city

>

>

100081zipcode

>

address

>

>

computer systemprof

>

>

securityprof

>

person

>

「key」 : 「value」

「key」 :

[「value1」, 「value2」]

「key」 :

例項:,

「prof」 :

[ 「computer system」 , 「security」 ]

}

key

: value

key:

#comment

‐value1

‐value2

key:

subkey

: subvalue

例項:firstname

: tian

lastname

: song

address

:streetaddr

: 中關村南大街5號

city

: 北京市

zipcode

:100081

prof

: ‐computer system

‐security

形式

特點比較

xml最早的通用資訊標記語言,可擴充套件性好,但繁瑣

internet上的資訊互動與傳遞

json

資訊有型別,適合程式處理(js),較xml簡潔

移動應用雲端和節點的資訊通訊,無注釋

yarm

資訊無型別,文字資訊比例最高,可讀性好

各類系統的配置檔案,有注釋易讀

資訊提取的一般方法

<>.find_all(name, attrs, recursive, string, **kwargs)

擴充套件方法

方法說明

<>.find()

搜尋且只返回乙個結果,同.find_all()引數

<>.find_parents()

在先輩節點中搜尋,返回列表型別,同.find_all()引數

<>.find_parent()

在先輩節點中返回乙個結果,同.find()引數

<>.find_next_siblings()

在後續平行節點中搜尋,返回列表型別,同.find_all()引數

<>.find_next_sibling()

在後續平行節點中返回乙個結果,同.find()引數

<>.find_previous_siblings()

在前序平行節點中搜尋,返回列表型別,同.find_all()引數

<>.find_previous_sibling()

在前序平行節點中返回乙個結果,同.find()引數

簡單例項

import requests

from bs4 import beautifulsoup

deffunc

(url)

: header =

r = requests.get(url, headers=header)

r.raise_for_status(

) soup = beautifulsoup(r.text,

"html.parser"

)for tag in soup.find_all(

'a')

:print

(tag.string)

print

("------"

)for tag in soup.find_all(

true):

print

(tag.name)

if __name__ ==

"__main__"

: url =

""func(url)

二 文字提取 機器學習

英文提取步驟 準備句子 例項化countvectorizer 講分詞結果變成字串當做fit transform的輸入值 示例 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.t...

前端之路 HTML(二)文字與段落標記

chapter 3 文字與段落標記 標題字標記 屬性說明 對齊方式有三種選項top center right 此屬性在 html 4.01 中,h1 h6 元素的 align 屬性不被贊成使用,在 html 5 中,h1 h6 元素的 align 屬性不被支援。可選屬性 face size colo...

NLTK學習筆記 七 文字資訊提取

開發和評估分塊器 命名實體識別和資訊提取 如何構建乙個系統,用於從非結構化的文字中提取結構化的資訊和資料?哪些方法使用這類行為?哪些語料庫適合這項工作?是否可以訓練和評估模型?資訊提取,特別是結構化資訊提取,可以模擬資料庫的記錄。對應的關係繫結了對應的資料資訊。針對自然語言這類非結構化的資料,為了獲...