PHP 通用正文提取

2021-05-23 21:36:13 字數 2025 閱讀 6853

提取類

<?php

require_once '******_html_dom.php';

/*** 正文提取類

* @author wangzhongibn

* 2010-02-20

*/class extracttext

/*** 設定html**

* @param $stringorurl

* @return string

*/private function setinnerhtml($stringorurl)

else

// html 糾錯

if(function_exists("tidy_repair_string"))

}/**

* 從網頁原始碼中獲取正文

* @param $stringorurl 內容或url

* @return string

*/public function getcontent($stringorurl,$isfilter=true,$func='')

else

if($isfilter)

return $text;

}/**

* 過濾內容少的標籤

* @param $texts 陣列

* @param $num 資料量

*/private function filtermin(&$texts,$num=200)

$i++;}}

/*** 過濾

* @param $text

* @return string

*/private function filter(&$text)

/*** 獲取網頁原始碼中的標籤列表.

* @param $string

* @param $tag

* @return array

*/public function gettags($string,$tag='div')

return $texts;}}

/*** 計算漢字比例

* @param $x

* @param $y

* @return unknown_type

*/function comparescale($x,$y)

else

}else

else

else}}

}/**

* float 物件比較

* @param $x

* @param $y

* @return unknown_type

*/function floatcompare($x,$y)

/*** string 物件比較

* @param $x

* @param $y

* @return unknown_type

*/function stringcompare($x,$y)

return -1;

}if(empty($y))

}呼叫例項

網頁正文識別及提取演算法 提取網路正文的實踐

goose安裝pip install goose extractor或 pip3 install goosegithub 簡單例項 python3 python 3.7.6 default,feb 16 2020,17 48 02 clang 8.0.0 clang 800.0.42.1 on da...

淺識網頁正文提取演算法

淺識網頁正文提取演算法 因為要到一家網際網路公司參加自然語言處理實習生面試,對於崗位要求中提到的工作內容 網頁正文內容提取 的相關知識進行了一下突擊。重點看了一下網頁正文提取所涉及到的各種演算法,網上的內容很多,我只是看了其中一小部分,對各類演算法做了乙個簡單的了解,不敢說對其做乙個綜述,只是以乙個...

多種基於html正文提取的思想

一 基於統計的中文網頁正文抽取的研究 摘 要 資訊抽取技術是一種廣泛運用於網際網路的資料探勘技術。其目的是從網際網路海量資料中抽取有意義 有價值的資料和資訊,從而能更好的利用網際網路資源。文中採用一種統計網頁特徵的方法,將中文網頁中的正文部分抽取出來。該方法首先將網頁表示成基於xml的dom樹形式,...