PHP實現爬蟲

2021-08-08 16:31:26 字數 1221 閱讀 9930

我們嘗試獲取表的資訊,這裡,我們就用某校的課表來代替:

接下來我們就上**:

a.php

<?php 

header( "content-type:text/html;charset=utf-8" );

$ch = curl_init();

$url ="表的鏈結";

curl_setopt($ch,curlopt_url,$url);

curl_setopt($ch, curlopt_returntransfer, 1);

$content=curl_exec($ch);

preg_match_all("/(.*?)\n(.*?)(.*?)(.*?)(.*?)\n(.*?)(.*?)/",$content,$matchs,preg_set_order);//匹配該錶所用的正則

var_dump($matchs);

然後咱們就執行一下:

成功獲取到課表;

<?php 

header( "content-type:text/html;charset=utf-8" );

$ch = curl_init();

$url="";

curl_setopt($ch,curlopt_url,$url);

curl_setopt($ch, curlopt_returntransfer, 1);

$content=curl_exec($ch);

$string=file_get_contents($url);

preg_match_all("/]*)\s*src=('|\")([^'\"]+)('|\")/",

$string,$matches);

$new_arr=array_unique($matches[3]);

foreach($new_arr

as$key)

然後,我們就獲得了下面的頁面:

PHP實現爬蟲

我們嘗試獲取表的資訊,這裡,我們就用某校的課表來代替 接下來我們就上 a.php ch curl init url 表的鏈結 curl setopt ch,curlopt url,url curl setopt ch,curlopt returntransfer,1 content curl exe...

PHP實現爬蟲

我們嘗試獲取表的資訊,這裡,我們就用某校的課表來代替 接下來我們就上 a.php ch curl init url 表的鏈結 curl setopt ch,curlopt url,url curl setopt ch,curlopt returntransfer,1 content curl exe...

PHP實現最簡單爬蟲原型

最簡單的爬蟲模型應該是這樣的 給乙個初始url,爬蟲把內容扒下拉,找頁面裡的url,在以這些url為起點,開始爬。下面是乙個最簡單的php實現的爬蟲模型。當然這只爬蟲還需要進行下面的進化才可以 1 拼接更準確的url鏈結。現在的鏈結有可能是格式錯誤的。2 能夠去掉重複的url鏈結。現在的爬蟲會做非常...