java遠端抓取網頁資訊

2021-08-15 19:41:07 字數 2345 閱讀 5690

//筆記

jar包:httpclient-4.3.5.jar,jsoup-1.7.2.jar

//建立httpclient例項,採用預設的引數配置

//使用post提交  (個人把httppost理解為是乙個瀏覽器)

httppost httppost = new httppost("要抓取網頁驗證碼的url位址"); 

//設定請求的頭  先用正常的瀏覽器獲取驗證碼,f12檢視headers的資訊對照著填寫

//設定請求配置引數,分別為連線池獲取超時時間,伺服器超時時間,伺服器返回資料的時間

requestconfig requestconfi=requestconfig.custom().setconnectionrequesttimeout(3000).setconnecttimeout(8000).setsockettimeout(8000).build();

//將配置資訊新增到httppost中

//執行  發起請求

//伺服器返回的狀態

int code = response.getstatusline().getstatuscode();

if(code==200) catch (exception e) finally

}//並不一定在servlet裡使用,在類方法裡也可以使用,是一樣的,我只是覺得在這裡面寫方便而已。

//大致就是這樣了,新手只能整理成這樣了。

//***********post請求帶引數遠端抓取網頁資訊***********************//

jar包:httpclient-4.3.5.jar 

//建立httpclient例項,採用預設的引數配置

//使用post提交  (個人把httppost理解為是乙個瀏覽器)

httppost httppost = new httppost("要抓取網頁驗證碼的url位址"); 

//設定請求的頭  先用正常的瀏覽器獲取驗證碼,f12檢視headers的資訊對照著填寫

//設定請求配置引數,分別為連線池獲取超時時間,伺服器超時時間,伺服器返回資料的時間

requestconfig requestconfi=requestconfig.custom().setconnectionrequesttimeout(3000).setconnecttimeout(8000).setsockettimeout(8000).build();

//將配置資訊新增到httppost中

//設定請求引數

list params=new arraylist();

params.add(new basicnamevaluepair("引數名",引數值));  

params.add(new basicnamevaluepair("引數名",引數值));  

try finally  

} catch (exception e)  

//個人筆記,新手。

php 抓取網頁資訊

最近要抓取網頁資料,就用php試了下,發現了乙個不錯的php抓取資料的整合類 html dom.php,而根據網頁的特點大致分為兩類,一類是網頁dom結構相同,url類似只是改了部分引數,這個 直接用 html file get html url 然後根據網頁dom用 html find plain...

動態抓取網頁資訊

前幾天在做資料庫實驗時,總是手動的向資料庫中新增少量的固定資料,於是就想如何向資料庫中匯入大量的動態的資料?在網上了解了網路爬蟲,它可以幫助我們完成這項工作,關於網路爬蟲的原理和基礎知識,網上有大量的相關介紹,本人不想在累述,個人覺得下面的文章寫得非常的好 網路爬蟲基本原理 一 網路爬蟲基本原理二 ...

學習curl抓取網頁資訊

抓取的遊戲和路徑資訊 header content type text html charset utf 8 content file get contents 1.初始化 ch curl init 2.設定選項,包括url curl setopt ch,curlopt url,設定需要抓取資料的 ...