採集原理 採集技術篇

2022-09-27 10:36:10 字數 3296 閱讀 1999

最近一段時間,採集很熱門,從新聞小偷,到**小偷,到新聞採集,flash採集,都有他的蹤影,現在還有很多的人對採集都很感興趣,為了服務大家,我也正在寫一套採集程式,名字為 心意採集程式 ,現在我講一下,採集用到的相關技術。

下面講到的也不是很高深的xmlhttp技術,我也是稍稍講一下,乙個採集需要用到的幾塊內容

如果你需要了解更多的問題,請去www.google.com 搜尋 xmlhttp 技術 你將會得到更多的幫助,如果大家有什麼疑問的話,可以在論壇上回貼

下面只講到如何在網上得到資料,並不涉及到資料處理 

第一 xmlhttp 技術

上面那個位址,那篇文章講的根本原理已經很詳細了,但是我們一般採集的話,剛開始不太需要了解太多。只要實用就可以了,等以後不夠用的時候,再去找相關文件也來得急

首先,我們需要建立乙個xmlhttp物件

微軟發布的xmlhttp元件已經有很多的版本了,我知道的就有以下幾種:

以上有這麼多種元件,我們當然是需要申請最高版本的物件嘍,那有什麼辦法可以實現呢

下面我拿出一段**,大家可以看看,他是按最高版本申請xmlhttp物件的

for&n程式設計客棧bsp;each prog in arrprogid

'// rem&nbs程式設計客棧p;檢查元件是否支援 是返回 true 否返回 false

'// 

public function isobjinstalled(strclassstring)

on error resume next

'//設定初始化值

isobjinstalled = false

err = 0

'//測試**

dim xtestobj

set xtestobj = server.createobject(strclassstring)

if 0 = err then isobjinstalled = true

'//清除所申請的物件

set xtestobj = nothing

err = 0

end function 

上面那段**就是申請到當前伺服器支援的最高版本的xmlhttp物件了

下面我們講一下採集功能函式程式設計客棧

'getfiletext為採集功能函式

public&n程式設計客棧bsp;function getfiletext(url) 

on error resume next '有錯誤時繼續執行**

dim http '定義變數

'set http=server.createobject(xmlhttpcom) '申請物件 

set http=server.createobject("microsoft.xmlhttp") '保險起見,寫出乙個伺服器一般都支援的版本 

http.open "get",url,false '開啟物件 用get方式 等待伺服器響應

http.send() '傳送

if http.readystate<>4 then '如果伺服器沒反應,則退出函式

exit function 

end if 

getfiletext=bytes2bstr(http.responsebody,"gb2312") '把得到的資料流二進位制檔案 轉化成文字字元格式 (gb2312)

set http=nothing '刪除物件

if err.number<>0 then err.clear '如果有錯誤,清除錯誤

end function

'// 

'// 採用 adodb.stream 處理採集到的資料,把二進位制的檔案轉成文字字元

'// 

function bytes2bstr(vin,cset)

dim bytesstream,stringreturn

set bytesstream = server.createobject("adodb.stream")

bytesstream.type = 2

bytesstream.open

bytesstream.writetext vin

bytesstream.position = 0

bytesstream.charset = 

bytesstream.position = 2

stringreturn =bytesstream.readtext

bytesstream.close

set bytesstream = nothing

bytes2bstr = stringreturn

end function

下面我定義乙個 路徑變數 url

url = "";

上面是乙個**,如果我們想把上面這個位址採集下來,並顯示出來的話,我們可以這樣操作

url = "";

response.write getfiletext(url)

這樣就可以採集到上面**的內容了

是不是很簡單呢

那採集到資料之後應該怎麼操作呢

怎麼區分資料,如果得到你想要的資料,如果把得到的資料入庫呢

這是以後需要分析講解的問題了 入庫要注意的地方,用正表示式處理資料

本文標題: 採集原理---採集技術篇---xmlhttp

本文位址:

採集程式原理,資訊採集技術的原理

採集程式的主要步驟如下 一 獲取被採集的頁面的內容 二 從獲取 中提取所有用的資料 一 獲取被採集的頁面的內容 我目前所掌握的asp常用獲取被採集的頁面的內容方法 1 用serverxmlhttp元件獲取資料 以下內容為程式 function getbody weburl 建立物件 請求檔案,以非同...

PHP採集程式原理分析篇

由於需要,要寫乙個簡單的php採集程式,照例是到網上找了一堆教程,然後照貓畫虎,可是發現網上的教程全是似是而非,沒有乙個真正能用的。苦想了幾天,終於弄明白了裡面的道理。在這裡寫出來,請高手指正。採集程式的思路很簡單,無非就是先打乙個頁面,一般都是列表頁,取得裡面全部鏈結的位址,然後開啟逐條鏈結,尋找...

PHP採集程式原理分析篇

由於需要,要寫乙個簡單的php採集程式,照例是到網上找了一堆教程,然後照貓畫虎,可是發現網上的教程全是似是而非,沒有乙個真正能用的。苦想了幾天,終於弄明白了裡面的道理。在這裡寫出來,請高手指正。採集程式的思路很簡單,無非就是先打乙個頁面,一般都是列表頁,取得裡面全部鏈結的位址,然後開啟逐條鏈結,尋找...