使用node寫爬蟲入門

最近看了node能做爬蟲，所以就試了一下，一下是整個過程的記錄

1、新建資料夾baidunews

2、在上邊新建的資料夾下輸入npm init進行初始化

npm install express

npm install cheerio

npm install superagent

4、在baidunews資料夾下新建index.js檔案

5、在檔案中加入一下**

const express = require('express');
//...
() );/**
* [description] - 跟路由 */
//當乙個get請求 http://localhost:3000時，就會後面的async函式
res.send(hotnews);
});//
引入所需要的第三方包
const superagent= require('superagent');
let hotnews = ; //
熱點新聞
let localnews = ; //
本地新聞/**
* index.js */
superagent.get('').end((err, res) =>`)
} else
});/*
* * index.js
* [description] - 抓取熱點新聞頁面 */
//引入所需要的第三方包
const cheerio = require('cheerio');
let gethotnews = (res) =>;
hotnews.push(news) 
//存入最終結果陣列
}); 
return
hotnews
};

6、在當前資料夾下中開啟命令列，並在命令列中輸入

node index.js

7、在瀏覽器中訪問localhost:3000

8、在頁面中顯示爬取的資料

Node 簡單爬蟲

以爬慕課網hadoop高階課程為例，用node寫乙個簡單的爬蟲先抓取這個的原始碼然後分析這個頁面的dom，如圖每大章節都被乙個chapter包圍，抓取下來就是乙個陣列，對每個item，這張的大標題在strong裡面，每章的小章節在video標籤裡，然後小標題就是j media item的te...

node爬蟲實踐

爬蟲的原理很好理解，就是在服務端請求另乙個伺服器的資源，前端有跨域問題，而服務端沒有，這是天然優勢。掌握node的前端可以為所欲為了 1 首先，根據請求資源的協議選擇合適的模組，如果是https協議，就用https的方法取請求，之前沒有注意到這個問題。var https require https ...

Node爬蟲實踐

爬蟲的原理很好理解，就是在服務端請求另乙個伺服器的資源，前端有跨域問題，而服務端沒有，這是天然優勢。掌握node的前端可以為所欲為了。1 首先，根據請求資源的協議選擇合適的模組，比如csdn是https協議，就用https的方法取請求，之前沒有注意到這個問題。var https require ht...

使用node寫爬蟲入門

Node 簡單爬蟲

node爬蟲實踐

Node爬蟲實踐

相關推薦