大資料技術之資訊提取的一般方法

2021-12-30 13:10:04 字數 707 閱讀 8564

方法一:完整解析資訊的標記形式,再提取關鍵資訊。

xml? ? json? ? yaml

需要標記解析器?

eg: bs4庫的標籤樹遍歷

優點: 資訊解析準確

缺點: 提取過程繁瑣,速度慢。

方法二: 無視任何標記形式,直接搜尋關鍵資訊。

搜尋對資訊的文字查詢函式即可。

優點: 提取過程簡潔,速度較快。

缺點:提取結果準確性與資訊內容相關。

融合方法

融合方法: 結合形式解析與搜尋方法,提取關鍵資訊。

xml? ? json? ? yaml?? ? 搜尋

需要標記解析器及文字查詢函式。

例項提取html中所有url鏈結

思路: 1)搜尋到所有標籤

????????? ?2)解析標籤格式,提取href後的鏈結內容。

>>> from bs4 import beautifulsoup

>>> import requests

>>> r = requests.get("")

>>> demo = r.text

>>> soup = beautifulsoup(demo,"html.parser")

>>> for link in soup.find_all('a'):

print(link.get('href')) #在a標籤中獲取它的屬性

>>>

資訊提取的一般方法

完整解析資訊的標記形式,再提取關鍵資訊 需要標記解析器 bs4庫的標籤樹遍歷 優點 資訊解析準確 缺點 提取過程繁瑣,速度慢 結合形式解析與搜尋方法,提取關鍵資訊 需要標記解析器及文字查詢函式 獲取demo源 import requests r requests.get 頁面鏈結 r.text de...

小白學爬蟲筆記8 資訊提取的一般方法

方法二 無視標記形式,直接搜尋關鍵資訊 融合方法 結合形式解析與搜尋方法,提取關鍵資訊 from bs4 import beatifulsoup soup beautifulsoup demo,html.parser for link in soup.find all a print link.ge...

大資料的一般分析流程

大資料分析流程 1 業務理解 判斷分析需求是否可以轉換成資料分析專案 2 資料獲取 抽取的資料必須能夠正確反映業務需求 3 資料清洗 補充部分資料缺失的屬性值 統一資料格式 編碼和質量 檢測和刪除異常資料 4 資料管理 對資料進行分類 編碼 儲存 索引和查詢 經歷了檔案管理 資料庫 資料倉儲 大資料...