PHP爬蟲入門簡單的登入抓取內容

以上為背景```

----

### php 寫爬蟲 ###

說實話我也想用python的，畢竟人家招牌。無奈我python還停留在看語法的階段，實在太慚愧，鞭笞一下自己加油學習。這裡用php的curl庫進行頁面抓取。

同事使用的系統需要先登入，然後有很多自定義圖表。每個圖表有乙個`graph_id`，根據`graph_id`可以匯出某段時間的csv格式報表以及對應的圖形png。

#### 1. 登入cookie ####

可能做爬蟲遇到的第一關就是登入了，通常你要抓取的網頁需要先驗證登入使用者。我們知道通常使用者會話狀態都是通過`sessionid`來識別，而`sessionid`通過`cookie`儲存到客戶端。所以當你要先登入在抓取頁面的時候，先請求登入介面，獲取到`cookie`儲存到本地，後面抓取內容的時候每次帶上這個`cookie`檔案就可以了。儲存`cookie`的curl選項*`curlopt_cookiejar`*:

# 儲存cookie的**

$this->cookie_file = '/tmp/cookie.curl.tmp';

curl_setopt($ch, curlopt_cookiejar , $this->cookie_file);

然後頁面抓取的時候通過設定*`curlopt_cookiefile`*帶上這個cookie:

# 設定cookie的**

curl_setopt($ch, curlopt_cookiefile , $this->cookie_file);

#### 2. 頁面重定向 ####

解決了會話session的問題，第二的頭疼的就是`302`和`301`重定向了。重定向的頁面response一般沒有body部分，頭部大概長這樣:

那怎麼辦呢？仔細觀察頭部資訊可以發現裡面包含了重定向的目標頁面`location: ***...`。而curl可以通過`curl_getinfo($ch, curlinfo_http_code)`來獲取http狀態碼，到這裡似乎就很清楚接下來該幹嘛了。

// 獲取的curl結果

### 小結 ###

PHP爬蟲入門簡單的登入抓取內容

PHP的簡單登入操作

簡單的爬蟲入門，requests庫

php實現簡單爬蟲的開發

PHP爬蟲入門 簡單的登入抓取內容

PHP的簡單登入操作

簡單的爬蟲入門，requests庫

php實現簡單爬蟲的開發

相關推薦

PHP爬蟲入門簡單的登入抓取內容