爬蟲 模擬請求

2021-07-26 07:14:51 字數 4193 閱讀 5556

我們將要爬取人民網某些新聞中的資料,那我們該如何實現呢?

首先我們先實現第一步:根據url,模擬url請求,根據url獲取網頁中的內容。

//設定全域性的標準cookie策略

requestconfig config = requestconfig.custom().setcookiespec(cookiespecs.ignore_cookies).build();

//建立自定義的httpclient物件

//建立post方式請求物件

//設定請求和傳輸超時時間 毫秒

//裝填引數

listnvps = new arraylist();

if(map!=null)

} //設定引數到請求物件中

system.out.println("請求引數:"+nvps.tostring());

//設定header資訊

//指定報文頭【content-type】、【user-agent】

//執行請求操作,並拿到結果(同步阻塞)

}*///獲取結果實體

//釋放鏈結

response.close();

return results;

} /** *

*@param url

*@param params 可變引數,設定網頁編碼

*@return

*@throws keymanagementexception

*@throws nosuchalgorithmexception

*@throws clientprotocolexception

*@throws ioexception

*/public

static string get(string url,string ... params)

//採用繞過驗證的方式處理https請求

sslcontext sslcontext = sslclient.createignoreverifyssl();

// 設定協議http和https對應的處理socket鏈結工廠的物件

//設定全域性的標準cookie策略

requestconfig config = requestconfig.custom().setcookiespec(cookiespecs.ignore_cookies).build();

//建立自定義的httpclient物件

//建立get方式請求物件

//設定請求和傳輸超時時間 毫秒

//設定header資訊

//指定報文頭【content-type】、【user-agent】

//執行請求操作,並拿到結果(同步阻塞)

}//獲取結果實體

//釋放鏈結

response.close();

}catch (exception ex)

return results;

} }當然我們這步的實現也可以採取很多優秀的框架,就不用自己寫工具類來進行實現啦!

下一節會具體介紹,怎麼獲取想要的具體內容

GoLang 爬蟲 模擬傳送HTTP請求

golang的標準庫net http可以實現client和server的功能開發。簡單來說,client就是我們向伺服器傳送http請求,常用於訪問api介面獲取相應資料 開發網路爬蟲等功能 server是開發伺服器web應用,也就說我們常說的 開發。本博文講述如何使用golang的標準庫net h...

Python爬蟲之模擬POST請求

multipart form data text xml flask 獲取引數的幾種方式方式 python 中 requests 模組提交 post 引數的幾種方式 提交 multipart form data 格式的引數,需要借助乙個第三方模組 requests toolbelt 來對引數進行封裝...

爬蟲 反爬蟲 系列一 基礎之模擬請求 2

基礎之模擬請求 2 在開發爬蟲程式前,你應該知道你需要的資料來自哪兒,以及怎麼獲取。為了更快的做到這一點,需要對http請求進行模擬進行驗證。以下是我常用的幾種方式,基本上是足夠用了。以南方航空官網為例,假如我想爬南航的機票航班資訊,那麼我會先用瀏覽器除錯一番。瀏覽器除錯 用火狐瀏覽器開啟南航官網,...