基於行塊分布函式的正文抽取

2021-09-06 13:17:41 字數 377 閱讀 2768

的正文抽取演算法思路:

1、預處理:剔除網頁html標籤,去掉所有的空白符(\n,\r,\t等);

2、依據"\n"

分行,若某文字行的上下存在兩個空行,且此文本行長度小於閾值40,則刪除此文本行;

3、設定三行為一行塊,計算每段行塊的長度;

4、找出每個連續有字元的段落,並找到起點和終點;

要求:行塊長度大於0(段落開始),且隨後連續行塊長度大於0,直到行塊長度為0(即段落結束)

5、如果兩塊段落只差兩個空行,並且兩塊包含文字均較多,則進行段落合併;

6、找出最長段落,如果長度小於100,則推出提供的網頁為非主體性網頁;否則,最長段落即為正文;

的正文抽取演算法實現:

基於行塊分布函式的通用網頁正文抽取

基於行塊分布函式的通用網頁正文抽取 線性時間 不建dom樹 與html標籤無關 對於web資訊檢索來說,網頁正文抽取是後續處理的關鍵。雖然使用正規表示式可以準確的抽取某一固定格式的頁面,但面對形形色色的html,使用規則處理難免捉襟見肘。能不能高效 準確的將乙個頁面的正文抽取出來,並做到在大規模網頁...

基於廣告鏈結和行塊分布的網頁正文抽取

一種新型的網頁正文抽取演算法,對於廣告的遮蔽很有效果。移步github 現在網上能搜到的正文抽取演算法一般有兩類 網上的這兩種演算法應用程度都很廣,但是對兩種演算法進行測試後,發現兩種演算法對於正文和廣告距離很近的網頁的抽取效果都不是很好。該演算法的最主要的改進是 在獲得網頁源 之後,先將網頁中所有...

基於文字密度的新聞正文抽取方法之Python實現

回顧以上的網頁分析,如果按照文字密度來找提取正文,那麼就是寫這麼乙個演算法,能夠從過濾html標籤後的文字中找到正文文字的起止行號,行號之間的文字就是網頁正文部分。還是從上面三個網頁的分析結果看,他們都有這麼乙個特性 正文部分的文字密度要高出非正文部分很多。我們按照這個特性就可以很容易將演算法實現,...