使用node寫爬蟲入門

2022-07-04 15:00:11 字數 1179 閱讀 7267

最近看了node能做爬蟲,所以就試了一下,一下是整個過程的記錄

1、新建資料夾baidunews

2、在上邊新建的資料夾下輸入npm init進行初始化

npm install express

npm install cheerio

npm install superagent

4、在baidunews資料夾下新建index.js檔案

5、在檔案中加入一下**

const express = require('express');

//...

() );/**

* [description] - 跟路由 */

//當乙個get請求 http://localhost:3000時,就會後面的async函式

res.send(hotnews);

});//

引入所需要的第三方包

const superagent= require('superagent');

let hotnews = ; //

熱點新聞

let localnews = ; //

本地新聞/**

* index.js */

superagent.get('').end((err, res) =>`)

} else

});/*

* * index.js

* [description] - 抓取熱點新聞頁面 */

//引入所需要的第三方包

const cheerio = require('cheerio');

let gethotnews = (res) =>;

hotnews.push(news)

//存入最終結果陣列

});

return

hotnews

};

6、在當前資料夾下中開啟命令列,並在命令列中輸入

node index.js

7、在瀏覽器中訪問localhost:3000

8、在頁面中顯示爬取的資料

Node 簡單爬蟲

以爬慕課網hadoop高階課程為例,用node寫乙個簡單的爬蟲 先抓取這個 的原始碼 然後分析這個頁面的dom,如圖 每大章節都被乙個chapter包圍,抓取下來就是乙個陣列,對每個item,這張的大標題在strong裡面,每章的小章節在video標籤裡,然後小標題就是j media item的te...

node爬蟲實踐

爬蟲的原理很好理解,就是在服務端請求另乙個伺服器的資源,前端有跨域問題,而服務端沒有,這是天然優勢。掌握node的前端可以為所欲為了 1 首先,根據請求資源的協議選擇合適的模組,如果是https協議,就用https的方法取請求,之前沒有注意到這個問題。var https require https ...

Node爬蟲實踐

爬蟲的原理很好理解,就是在服務端請求另乙個伺服器的資源,前端有跨域問題,而服務端沒有,這是天然優勢。掌握node的前端可以為所欲為了。1 首先,根據請求資源的協議選擇合適的模組,比如csdn是https協議,就用https的方法取請求,之前沒有注意到這個問題。var https require ht...