NodeJs爬蟲速成

2021-10-19 18:46:26 字數 1177 閱讀 7021

mark一次nodejs爬蟲入門經歷

需要用到的依賴

cheerio

superagent

npm init 初始化乙個專案

新建乙個index.js

引入上述的依賴

const superagent =

require

('superagent');

const cheerio =

require

('cheerio'

);

引入fs檔案管理

const fs =

require

('fs'

);

爬目標** 例如微博熱搜

const hot =`;

使用superagent請求微博熱搜,會返回兩個引數 第乙個為error 請求失敗的錯誤, 第二個是請求成功後網頁的資料

在請求失敗丟擲錯誤

superagent.

get(hot,

(error, result)

=>

}

請求成則使用cheerio處理dom元素

const $ = cheerio.

load

(result.text)

;const list =

;// 儲存資料

可以看出來都是比較規則的資料 用jquery的each迴圈可以非常方便的取出資料來

$

('#pl_top_realtimehot table tbody tr').

each

(function

(index))}

})

最後fs寫入資料

fs.

writefilesync(`

$/public/hotsearch.json`

,json

.stringify

(list)

,"utf-8"

)

…en

nodejs簡易爬蟲

我的爬蟲程式是用nodejs寫的,因為最近在學這個東西,其中使用了express框架,以及cheerio和superagent兩個模組。cheerio模組是nodejs處理html內容的神器,例如var cheerio.load html 將頁面的html內容載入下來後,便可使用jquery語法進行...

網路爬蟲 Nodejs

要抓取網頁資訊首先要獲取部落格主頁的html資訊,使用 http.get options callback 方法獲取資訊,如下 其中url 為我的 部落格主頁,獲取主頁html後,需要對資訊進行挑選,在部落格主頁右鍵選擇檢視原始碼,可以找到所需資訊如下 newcomments class panel...

nodejs 簡易爬蟲

用nodejs編寫爬蟲跟其他語言一樣,比較簡單,比較各個語言標準庫都差不多,主要就是抓取頁面,然後分析dom節點,獲取資料。requests 經典的請求庫,cherrio 像jquery一樣解析dom的庫。這裡用csdn舉例。var request require request var promi...