網頁抓取 PHP實現網頁爬蟲方式小結

2021-06-26 21:28:56 字數 1722 閱讀 7350

抓取某乙個網頁中的內容,需要對dom樹進行解析,找到指定節點後,再抓取我們需要的內容,過程有點繁瑣。lz總結了幾種常用的、易於實現的網頁抓取方式,如果熟悉jquery選擇器,這幾種框架會相當簡單。

一、ganon

文件:

測試:抓取我的**首頁所有class屬性值是focus的div元素,並且輸出class值

include

'ganon.php';

$html = file_get_dom('');

foreach($html('div[class="focus"]') as $element)

?>

結果:

二、phpquery

文件:include

'phpquery/phpquery.php';

phpquery::newdocumentfile('');

$artlist = pq("article");

foreach($artlist as $title)

?>

結果:

三、******-html-dom

文件:

include

'******_html_dom.php';

//使用url和file都可以建立dom

$html = file_get_html('');

//找到所有

// foreach($html->find('img') as $element)

// echo $element->src . '

';//找到所有鏈結

foreach($html->find('a') as $element)

echo $element->href . '

'; ?>

結果:(截圖是一部分)

四、snoopy

文件:include("snoopy.class.php");

$url = "";

$snoopy = new snoopy;

$snoopy->fetch($url); //獲取所有內容

echo $snoopy->results; //顯示結果

// echo $snoopy->fetchtext ;//獲取文字內容(去掉html**)

// echo $snoopy->fetchlinks($url) ;//獲取鏈結

// $snoopy->fetchform ;//獲取表單

?>

結果:

五、手動編寫爬蟲

ps:資源分享

常見的開源爬蟲專案請戳:

網頁抓取 PHP實現網頁爬蟲方式小結

抓取某乙個網頁中的內容,需要對dom樹進行解析,找到指定節點後,再抓取我們需要的內容,過程有點繁瑣。lz總結了幾種常用的 易於實現的網頁抓取方式,如果熟悉jquery選擇器,這幾種框架會相當簡單。一 ganon 文件 測試 抓取我的 首頁所有class屬性值是focus的div元素,並且輸出clas...

php抓取網頁的若干實現方式

php抓取網頁的若干實現方式 最近在做乙個笑話平台,包含web版 安裝版,由於沒有笑話資源,所以就用php寫了乙個後台程式,每天定時從各大笑話 抓取資料,下面整理了一些php抓取網頁內容的基本方式。一 php抓取頁面的主要方法 1.file 函式 2.file get contents 函式 3.f...

php抓取網頁

用php抓取頁面的內容在實際的開發當中是非常有用的,如作乙個簡單的內容採集器,提取網頁中的部分內容等等,抓取到的內容在通過正規表示式做一下過濾就得到了你想要的內容,以下就是幾種常用的用php抓取網頁中的內容的方法。1.file get contents php url contents file g...