基於廣告鏈結和行塊分布的網頁正文抽取

2021-07-30 07:29:12 字數 317 閱讀 7585

一種新型的網頁正文抽取演算法,對於廣告的遮蔽很有效果。

**移步github

現在網上能搜到的正文抽取演算法一般有兩類:

網上的這兩種演算法應用程度都很廣,但是對兩種演算法進行測試後,發現兩種演算法對於正文和廣告距離很近的網頁的抽取效果都不是很好。

該演算法的最主要的改進是:在獲得網頁源**之後,先將網頁中所有的(a href)標籤替換為*字元,然後剔除網頁中的所有標籤。再用行塊分布函式對留下的網頁文字之間的位置關係進行分析,但是在分析時要加入對廣告文字的判斷。

具體做法可以檢視github專案 webarticle

有時間繼續補充演算法細節

阿里廣告鏈結替換字幕專利獲授權 廣告投放精準度提高

鳳凰網科技訊6月17日,天眼查app顯示,近日,阿里巴巴 中國 獲 的廣告投放方法及裝置 專利授權,公告號為cn108833952b,申請日期為201年6月。專利摘要顯示,本公開通過在 字幕內容對應廣告內容時,程式設計客棧根據utifkpnq廣告鏈結生成字幕內容對應的超連結,並替換字幕內容。該方法可...

行遷移和行鏈結

oracle會將整行的資料遷移到乙個新的資料塊上,而將該行原先的空間只放乙個指標,指向該行的新的位置,並且該行原先空間的剩餘空間不再被資料庫使用,這些剩餘的空間我們將其稱之為空洞,這就是產生表碎片的主要原因,表碎片基本上也是不可避免的,但是我們可以將其降到乙個我們可以接受的程度。注意,即使發生了行遷...

基於行塊分布函式的正文抽取

的正文抽取演算法思路 1 預處理 剔除網頁html標籤,去掉所有的空白符 n,r,t等 2 依據 n 分行,若某文字行的上下存在兩個空行,且此文本行長度小於閾值40,則刪除此文本行 3 設定三行為一行塊,計算每段行塊的長度 4 找出每個連續有字元的段落,並找到起點和終點 要求 行塊長度大於0 段落開...