網頁爬蟲php,php網頁爬蟲

2021-10-25 21:22:18 字數 1210 閱讀 1193

/*網頁爬蟲*/

#最簡單的使用,屬性都採用預設值

$curl=curl_init('');

$output=curl_exec($curl);

curl_close($curl);

echo $output;

#稍微複雜一點的,對頁面進行操作

$curl=curl_init();

curl_setopt($curl, curlopt_url, '');//可以動態改變**

curl_setopt($curl, curlopt_returntransfer, true);//不直接列印在瀏覽器上

$output=curl_exec($curl);//執行

curl_close($curl);//關閉

#更複雜一點的,模擬post請求

$data='thecityname=北京';

$curl=curl_init();

curl_setopt($curl, curlopt_url,'');

curl_setopt($curl,curlopt_header, 0);

curl_setopt($curl, curlopt_returntransfer, 1);

curl_setopt($curl,curlopt_post, 1);

curl_setopt($curl,curlopt_postfields,$data);

$output=curl_exec($curl);

if(!curl_errno($curl))elseelseelse{

echo 'uploadfile error:'.curl_error($curl);

curl_close($curl);

#curl訪問https上的資源

$curl=curl_init();

curl_setopt($curl,curlopt_url,'');

curl_setopt($curl,curlopt_returntransfer,true);

date_default_timezone_set('prc');

curl_setopt($curl,curlopt_ssl_verifypeer,0);//終止從服務端進行驗證

$output=curl_exec($curl);

curl_close($curl);

echo $output;

//php官方文件**:

網頁爬蟲 靜態網頁《一》

一 通過jsoup請求獲取 網頁審查元素。eg request path document doc jsoup.connect request path get 二 檢視需要扣取資料的標籤,通過日誌輸出 doc的body。eg log.v tag,body doc.body 三 檢視列印的日誌,找到...

android ios 網頁爬蟲

最近專案中需要用到公積金相關的資料,但是公積金那邊又沒有提供相關的開放介面供呼叫,因此動手把公積金的網頁抓下來對資料進行解析,拿到資料。廢話不多說,以昆明公積金為例進行分析下。準備 1.昆明公積金官網 2.抓包工具 httpwatch fiddler 4.html解析jar包 一般 抓資料流程分析 ...

XPath XPath 網頁爬蟲

申明 python3.6 順利安裝 安裝 from lxml import etree wb data 列印網頁原始碼 print 列印網頁原始碼 html etree.html wb data print html result etree.tostring html print result.d...