node簡易爬蟲

2022-03-22 01:57:41 字數 841 閱讀 5586

1. http模組,網路請求

cheerio庫, 將html格式的字串轉成類dom結構,之後可以分析結構,通過jq的語法選中其中的元素。

/*

1. 請求**資料

2. 將資料儲存本地檔案

狀態碼 const contenttype = res.headers['content-type']; //

檔案型別

let err =null

;

if(statuscode!==200)

else

if(!/^text\/html/.test(contenttype))

if(err)

//資料處理

let rawdata=''res.on('data',(chunk)=>)

//資料流傳輸完畢

res.on('end',()=>)

})$('img').each((index,el)=>)

})console.log('picarr',picarr)

fs.writefilesync('./pic.js',picarr)

})}).on('error',(err)=>)

Node 簡單爬蟲

以爬慕課網hadoop高階課程為例,用node寫乙個簡單的爬蟲 先抓取這個 的原始碼 然後分析這個頁面的dom,如圖 每大章節都被乙個chapter包圍,抓取下來就是乙個陣列,對每個item,這張的大標題在strong裡面,每章的小章節在video標籤裡,然後小標題就是j media item的te...

node爬蟲實踐

爬蟲的原理很好理解,就是在服務端請求另乙個伺服器的資源,前端有跨域問題,而服務端沒有,這是天然優勢。掌握node的前端可以為所欲為了 1 首先,根據請求資源的協議選擇合適的模組,如果是https協議,就用https的方法取請求,之前沒有注意到這個問題。var https require https ...

Node爬蟲實踐

爬蟲的原理很好理解,就是在服務端請求另乙個伺服器的資源,前端有跨域問題,而服務端沒有,這是天然優勢。掌握node的前端可以為所欲為了。1 首先,根據請求資源的協議選擇合適的模組,比如csdn是https協議,就用https的方法取請求,之前沒有注意到這個問題。var https require ht...