基於視覺資訊的網頁分塊演算法(VIPS)

2021-06-08 03:04:40 字數 1945 閱讀 7143

這篇**的主要思想:

從人類的角度來看,當乙個使用者觀察web頁面的時候,它總是會自然而然的把乙個語義塊作為乙個單一物件來看待,而不會管web頁面的內部結構是如何描述的。因此一些視覺因素,比如背景顏色、字型顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等等可用來分辨語義塊,充分的利用web頁面的視覺提示,並結合dom樹進行頁面語義分塊,可以達到更加理想的效果。vips演算法的首先從dom樹中提取出所有的合適的頁面塊,然後根據這些頁面塊檢測出它們之間的所有的分割條,包括水平和垂直方向。最後基於這些分割條,web頁面的語義結構將被重新構建。對於每乙個語義塊又可以使用vips演算法繼續分割為更小的語義塊。

vips演算法流程圖

其中,節點分割依據有

1、dom結點本身的屬性。比如當前dom結點的標籤,結點的背景色,當前結點所代表的頁面塊的大小,形狀。

2、當前dom結點的孩子結點。比如孩子結點的標籤,孩子結點所代表的區域的背景色,前景色,區域的大小以及不同型別的孩子的數目等等。

節點的分割原則如下

1、標籤提示

一些標籤如通常用來從視覺上分隔不同主題的內容, 因此如果dom結點中包含這些標籤,該結點允許被繼續分割;

如果inline結點的孩子結點存在line-break結點,那麼該結點 將被傾向於被分割;

2、色彩提示

如果當前結點的孩子結點中有乙個結點的背景色與它的背 景色不同,分割該dom結點。同時,具有不同背景色的節 點在本次迴圈中不再被分割。分割由下一次迭代完成

3、文字提示

如果當前結點的大部分孩子結點都是文字結點或者是虛擬 文字結點,不再繼續分割該結點

4、尺寸提示

對不同的結點型別預定義乙個門檻尺寸(結點的大小與整個 頁面大小的比較),如果結點的相對尺寸小於門檻大小,那 麼分割就停止

分割條檢測步驟如下:

1、初始化分隔條列表。最早的分隔條列表中僅僅存在乙個分隔條,起始和終止座標為(pbe,pee),分別對應整個web頁面的起始座標和終止座標

2、頁面塊被包含在分隔條中,此時,該分隔條將從頁面塊的邊緣裂變為多個分隔條

3、頁面塊與分隔條發生部分重合,那麼根據頁面塊的邊界重新調整分隔條的引數

4、頁面塊跨越分隔條,那麼此時移除該分隔條

5、移除頁面邊緣的分隔條

分割條檢測步驟圖

語義塊重構過程:

從最小權重的分隔條開始,該分隔條兩側的頁面塊將合併在一起組成乙個新的頁面塊。該合併過程不停的進行迭代,直到遇到權重最高的分隔條為止。對於每乙個新的語義塊,相應的doc也被相應設定,參見下圖:

另外,分隔條用於區別不同語義的頁面塊,因此基於給定分隔條兩邊的語義塊的在視覺上的差異,設定分隔條的權重。如果分隔條的權重越重,該分隔條兩側的頁面屬於不同語義塊的可能性就越大。分割塊權重的設定有以下幾個原則:

1、分隔條兩邊的頁面塊的距離越遠,該分隔條的權重 就越高

2、如果某個分隔條是通過檢測html標籤獲取的,比 如,那麼該分隔條的權重就越高

3、 如果分隔條兩側的頁面塊的背景色是不相同的,那 麼該分隔條的權重將相應增高

4、 對於水平分隔條而言,如果分隔條兩側的頁面塊的 字型屬性,比如字型大小,字型重量是不同的,那 麼該分隔條的權重將增加。而且如果分隔條上側的 頁面塊的體小於分隔條下側的頁面塊的字型,那 麼分隔條的權重將增加

5、對於水平分隔條而言,當分隔條兩側的頁面塊的結 構非常相似,比如文字,那麼該分隔條的權重將遞減

科創專案 基於視覺資訊的門開關狀態識別系統

基於視覺資訊的門開關狀態識別系統 1 前言 含研究目的及意義 我國城市化發展步伐加快,人們對地鐵的需求快速增加,地鐵作為現代化交通工具中的重要組成部分,地鐵的安全效能也將越來越受大家關注。為此,我們研究了一種基於視覺資訊的開關門的狀態識別設計方案。基於視覺資訊的門開關狀態識別系統的基礎資料是實時的地...

谷歌缺陷檢測演算法 基於視覺的缺陷檢測概述

影象採集 預處理特徵提取 缺陷分類 特徵提取為其中的關鍵,缺陷特徵提取的好壞直接影響檢測的效果。預處理的目的是減少影象的雜訊,提高目標與背景的對比度,突出影象中的 缺陷特徵。小波技術在預處理中的應用 1.小波去噪 2.小波融合 可以將不同角度拍攝的影象進行融合 採用小波融合方法既能夠很好地保留幾幅源...

基於matlab的互資訊熵匹配演算法

影象資訊熵是一種特徵統計形式,它反映了影象中平均資訊量的多少。影象的一維熵表示影象中灰度分布的聚集特徵所包含的資訊量,令i表示影象中灰度為i的畫素所佔的比例,則定義灰度影象的一元灰度熵為 h i 0 255pij logpij 影象一維熵可以表示影象灰度分布聚集特徵,卻不能反映影象灰度分布空間特徵,...