網路爬蟲 Nodejs

2021-07-28 02:46:20 字數 1434 閱讀 6359

要抓取網頁資訊首先要獲取部落格主頁的html資訊,使用

http.get(options[, callback])方法獲取資訊,**如下:

其中url  為我的 部落格主頁,獲取主頁html後,需要對資訊進行挑選,在部落格主頁右鍵選擇檢視原始碼,可以找到所需資訊如下:

newcomments

" class="panel">

通過cheerio,我們需要把html document 傳進去。

這是首選:

var

cheerio

=require

('cheerio'

),$

=cheerio

.load(''

);

獲取關鍵資訊**如下:
function filterchaper(html))

}) return coursedata

}function printcoursedata(coursedata))}var reg=/[a-za-z0-9]@[a-za-z0-9]\.[a-za-z0-9]/;var value=reg.exec(item)

若匹配到則value為陣列形式,郵箱是第0個元素,若匹配不到則返回null,

完整**如下

執行效果如下

nodejs簡易爬蟲

我的爬蟲程式是用nodejs寫的,因為最近在學這個東西,其中使用了express框架,以及cheerio和superagent兩個模組。cheerio模組是nodejs處理html內容的神器,例如var cheerio.load html 將頁面的html內容載入下來後,便可使用jquery語法進行...

nodejs 簡易爬蟲

用nodejs編寫爬蟲跟其他語言一樣,比較簡單,比較各個語言標準庫都差不多,主要就是抓取頁面,然後分析dom節點,獲取資料。requests 經典的請求庫,cherrio 像jquery一樣解析dom的庫。這裡用csdn舉例。var request require request var promi...

python nodejs爬蟲 nodejs爬蟲

生活中遇到了問題,想去成都買個房,那哪個區域價效比高肯定要考慮一番了,最粗暴直接的就是看租售比,遂打算去鏈家網爬上各個小區的賣房單價和租房單價比上一比,python寫爬蟲無疑是最流行的了,但最近在研究node,感覺寫個爬蟲強化一下node姿勢水平還是挺不錯的。開整。首先http請求工具和dom解析工...