（三）文字標記與提取方法 python爬蟲實戰

>
… name
>
/>
‐‐>
例項：>
>
tianfirstname
>
>
songlastname
>
>
>
中關村南大街5號streetaddr
>
>
北京市city
>
>
100081zipcode
>
address
>
>
computer systemprof
>
>
securityprof
>
person
>

「key」 : 「value」
「key」 :
[「value1」, 「value2」]
「key」 :
例項：,
「prof」 :
[ 「computer system」 , 「security」 ]
}

key : value key: #comment ‐value1 ‐value2 key: subkey : subvalue 例項：firstname : tian lastname : song address :streetaddr : 中關村南大街5號 city : 北京市 zipcode :100081 prof : ‐computer system

‐security

形式

特點比較

xml最早的通用資訊標記語言，可擴充套件性好，但繁瑣

internet上的資訊互動與傳遞

json

資訊有型別，適合程式處理(js)，較xml簡潔

移動應用雲端和節點的資訊通訊，無注釋

yarm

資訊無型別，文字資訊比例最高，可讀性好

各類系統的配置檔案，有注釋易讀

資訊提取的一般方法

<>.find_all(name, attrs, recursive, string, **kwargs)

擴充套件方法

方法說明

<>.find()

搜尋且只返回乙個結果，同.find_all()引數

<>.find_parents()

在先輩節點中搜尋，返回列表型別，同.find_all()引數

<>.find_parent()

在先輩節點中返回乙個結果，同.find()引數

<>.find_next_siblings()

在後續平行節點中搜尋，返回列表型別，同.find_all()引數

<>.find_next_sibling()

在後續平行節點中返回乙個結果，同.find()引數

<>.find_previous_siblings()

在前序平行節點中搜尋，返回列表型別，同.find_all()引數

<>.find_previous_sibling()

在前序平行節點中返回乙個結果，同.find()引數

簡單例項

import requests
from bs4 import beautifulsoup
deffunc
(url)
: header =
r = requests.get(url, headers=header)
r.raise_for_status(
) soup = beautifulsoup(r.text,
"html.parser"
)for tag in soup.find_all(
'a')
:print
(tag.string)
print
("------"
)for tag in soup.find_all(
true):
print
(tag.name)
if __name__ ==
"__main__"
: url =
""func(url)

二文字提取機器學習

英文提取步驟準備句子例項化countvectorizer 講分詞結果變成字串當做fit transform的輸入值示例 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.t...

前端之路 HTML（二）文字與段落標記

chapter 3 文字與段落標記標題字標記屬性說明對齊方式有三種選項top center right 此屬性在 html 4.01 中，h1 h6 元素的 align 屬性不被贊成使用，在 html 5 中，h1 h6 元素的 align 屬性不被支援。可選屬性 face size colo...

NLTK學習筆記七文字資訊提取

開發和評估分塊器命名實體識別和資訊提取如何構建乙個系統，用於從非結構化的文字中提取結構化的資訊和資料？哪些方法使用這類行為？哪些語料庫適合這項工作？是否可以訓練和評估模型？資訊提取，特別是結構化資訊提取，可以模擬資料庫的記錄。對應的關係繫結了對應的資料資訊。針對自然語言這類非結構化的資料，為了獲...

（三）文字標記與提取方法 python爬蟲實戰

二 文字提取 機器學習

前端之路 HTML（二）文字與段落標記

NLTK學習筆記 七 文字資訊提取

相關推薦

二文字提取機器學習

NLTK學習筆記七文字資訊提取