PHP爬蟲的三種方法

2021-09-25 12:57:28 字數 1615 閱讀 3824

定義:

file_get_contents() 函式把整個檔案讀入乙個字串中。

語法:

file_get_contents(path,include_path,context,start,max_length) 引數

描述path

必需。規定要讀取的檔案。

include_path

可選。如果也想在 include_path 中搜尋檔案的話,可以將該引數設為 「1」。

context

可選。規定檔案控制代碼的環境。context 是一套可以修改流的行為的選項。若使用 null,則忽略。

start

可選。規定在檔案中開始讀取的位置。該引數是 php 5.1 新加的。

max_length

可選。規定讀取的位元組數。該引數是 php 5.1 新加的。

例項**:

function

getdata1

($url

)$url

="***"

;print_r

(getdata1

($url))

;

介紹:

第二種爬取資料的途徑,通過curl庫,我們可以向指定的網頁傳送資料(該網頁沒有對爬蟲的檢測機制),當然如果存在也不影響,可以通過curl的函式 curl_setopt($ch,option,value)進行偽裝。

常規抓取資料**:

該**為curl抓取資料的常規方法,只針對於沒有檢測爬蟲的**。

function

detdata2

($url

)

偽裝抓取資料**:

許多**都存在對爬蟲的檢測,因此只有對爬蟲進行偽裝之後才會獲取到相應的資料。

function

getdata2

($url

)curl_close

($curl);

return

$tmpinfo

;}

include

("snoopy.php");

//使用時不要忘記引入snoopy類庫

function

getdata3

($url

)

這段**是偽裝之後的**,只是短短幾行,是不是很爽,別急還有更爽的,snoopy還可以免去一部分繁瑣的正規表示式,snoopy含有自動提取網頁鏈結和文字內容。

$snoopy

->

fetchtext($url);

//獲取網頁資料的全部文字資料

$snoopy

->

fetchlinks($url);

//獲取網頁資料的全部鏈結

$snoopy

->

fetchform($url);

//獲取表單

以上為本人對於爬蟲的一些學習心得,記錄下來供大家學習;

PHP刪除目錄的三種方法

1 遞規法 利用遞迴一層一層地刪除 deletedir dir else closedir dp else 2 系統呼叫法 function del dir dir else 3 迴圈法 function deltree pathdir else 如果是檔案就直接刪除 if is dir pathd...

PHP 時區設定的三種方法

在php目錄中的php.ini 裡找到date.timezone項。設定date.timezone asia shanghai 重啟執行環境 在執行的頁面新增date ult timezone set prc 頁面加上設定時區 ini set date.timezone asia shanghai ...

PHP重定向三種方法詳解

方法一 header location url 方法二 方法三 php的http相關函式種提供了乙個 header 函式,首先要清楚,header 函式必須放在php程式的開頭部分,而且之前不能有另外的 header 函式或者 setcookie 被呼叫,如果是帶有網頁輸出,本語句必須放在標記之前。...