PHP蜘蛛爬蟲開發文件

2021-09-26 10:00:15 字數 1249 閱讀 8158

《我用爬蟲一天時間「偷了」知乎一百萬使用者,只為證明php是世界上最好的語言 》所使用的程式框架

編寫php網路爬蟲, 需要具備以下技能:

注意:本框架只能在命令列下執行,命令列、命令列、命令列,重要的事情說三遍 ^_^

爬蟲採用php編寫, 下面以糗事百科為例, 來看一下我們的爬蟲長什麼樣子:

$configs =array(

'name

' => '

糗事百科',

'domains

' =>array(

'qiushibaike.com',

'www.qiushibaike.com'),

'scan_urls

' =>array(

''),

'content_url_regexes

' =>array(

"article/\d+"),

'list_url_regexes

' =>array(

"8hr/page/\d+\?s=\d+"),

'fields

' =>array(

array(

//抽取內容頁的文章內容

'name

' => "

article_content",

'selector

' => "

//*[@id='single-next-link']",

'required

' => true

), array(

//抽取內容頁的文章作者

'name

' => "

article_author",

'selector

' => "

//div[contains(@class,'author')]//h2",

'required

' => true

), ),

);$spider = new

phpspider($configs);

$spider->start();

爬蟲的整體框架就是這樣, 首先定義了乙個$configs陣列, 裡面設定了待爬**的一些資訊, 然後通過呼叫$spider = new phpspider($configs);和$spider->start();來配置並啟動爬蟲.

執行介面如下:

$configs物件如何定義, 後面會作詳細介紹.^_^

官方開發手冊:

PHP蜘蛛爬蟲開發文件

我用爬蟲一天時間 偷了 知乎一百萬使用者,只為證明php是世界上最好的語言 所使用的程式框架 編寫php網路爬蟲,需要具備以下技能 注意 本框架只能在命令列下執行,命令列 命令列 命令列,重要的事情說三遍 爬蟲採用php編寫,下面以糗事百科為例,來看一下我們的爬蟲長什麼樣子 configs arra...

mmx開發文件

i mmx簡介 ii mmx基本指令集 具體細節請參閱 intel 體系結構mmx技術程式設計師參考手冊 第五章 2.1 拷貝指令 movq 64位資料拷貝,如果記憶體8位對齊的話,是乙個64位寫,否則2個32位寫。movd 32位資料拷貝,注意 如果從記憶體向mmx暫存器拷貝,mmx高32位清零!...

zencart開發文件

在zencart開發中,做乙個新的功能模組時,首先要明確這個功能的流程和與原來 的關聯。然後,需要為這個功能模組取乙個名稱標識,盡量不要與原有的模組名稱不相同。zencart模組結構 1.資料庫資料表部分 2.後台管理部分 3.前台功能顯示部分 資料庫部分 zencart使用mysql數庫據,在設計...