採集相關類

2022-02-26 01:15:43 字數 1537 閱讀 8288

using system;

using system.data;

using system.configuration;

using system.net;

using system.io;

using system.text;

using system.collections.generic;

using system.text.regularexpressions;

using system.threading;

using system.web;

namespace common

catch(exception ex)

;                   

match = match.nextmatch();               

}                

}       

return m_links;   

}public static string gethtml(string url)

///

/// 獲得基礎流

///

/// **

/// cookie容器,可以為null

///

httpwebresponse response = (httpwebresponse)request.getresponse();      //根據建立的request得到響應response

stream responsestream = response.getresponsestream();  //建立乙個流來獲得響應體

return responsestream;

}catch (exception ex)

}///

/// 獲得網頁

///

/// **

///

/// cookie容器,可以為null

/// 網頁編碼

/// 從字串中返回匹配多個的集合值(網頁抽取特定部分有效)

///

/// 開始html tag

/// 結束html tag

/// html

///

public static listgetstrings(string html,string start, string end)

(?(.|[\r\n])+?)", start, end);//匹配url的模式,並分組    //理解這個正則

matchcollection mc = regex.matches(html, pattern);//滿足pattern的匹配集合

if (mc.count != 0)}}

catch

return list;}}

}

資料採集類

爬蟲,又稱蜘蛛,是從別的 抓取資源的一種方法,c net使用爬蟲的方法如下 protected string getpagehtml string url catch return pageinfo 按上述方法就可以在程式中獲取某url的頁面原始檔。但是有些 遮蔽了爬蟲,那就需要模擬瀏覽器獲取的方法...

php採集遠端文章簡單類

public pagestring private db function construct function geturlfile url else return trim content function get all url code function get sub content st...

採集俠 採集

安裝好之後 採集測試 先新增欄目,1 rss採集,xml路徑 採集測試 3 定向採集 新增採集規則 1 目標頁編碼 檢視目標網頁charset,是什麼圖中就選什麼 2 列表 如果只採集乙個列表頁,那麼輸入乙個列表首頁 即可,如 要採集所有列表頁就需要設定萬用字元了,萬用字元 1 20 代表1 20頁...