Nodejs爬蟲實戰（六）

1. 處理資料

上一步獲取結果中含有p標籤，用正則篩選，去掉標籤，只留下文字。

var myhtml = document.queryselector('.read-content').innerhtml.replace(/<[^>]+>/g,'')

統計詞的個數首先需要文字分詞

分詞模組segment(盤古分詞元件)，例項化，使用預設的識別模組及字典，載入字典檔案需要1秒，僅初始化時執行一次即可

let seg = new segment();
seg.usedefault();

開始分詞。

var arr = seg.dosegment(myhtml);

結果其中w表示內容，p表示詞性，詞性收錄

[ ,,,
,,,,
,]

去掉詞性為2048的標點

var myarr = ;
arr.foreach(data=>
});

json格式統計詞內容

var myjson = {};
myarr.foreach(data=>
else
});

去掉其中只出現一次的

let arr2 = ;
for(let word in myjson)
arr2.push()
};

結果排序

arr2.sort((json1,json2)=>json2.c-json1.c);

完整**

var index = 0;
const fs = require('fs');
const url = require('url');
const gbk = require('gbk');
const jsdom = require('jsdom').jsdom;
const segment = require('segment');
let seg = new segment();
seg.usedefault();
geturl('',(data)=>
});//計算個數，存為json格式
var myjson = {};
myarr.foreach(data=>
else
});//去掉只出現1次的 
}else if(res.statuscode == 302 || res.statuscode == 301)次重定向`,res.headers.location);
geturl(res.headers.location,success)
}});
req.end();
req.on('error',()=>)
}

Nodejs爬蟲實戰（四）

1.天貓頁面重定向嘗試抓取頁面列印res.statuscode,res.headers.location res.statuscode返回的狀態碼 res.headers.location返回的位址 302 move temporarily 請求的資源臨時從不同的 uri響應請求。由於這樣的重...

nodejs簡易爬蟲

我的爬蟲程式是用nodejs寫的，因為最近在學這個東西，其中使用了express框架，以及cheerio和superagent兩個模組。cheerio模組是nodejs處理html內容的神器，例如var cheerio.load html 將頁面的html內容載入下來後，便可使用jquery語法進行...

網路爬蟲 Nodejs

要抓取網頁資訊首先要獲取部落格主頁的html資訊，使用 http.get options callback 方法獲取資訊，如下其中url 為我的部落格主頁，獲取主頁html後，需要對資訊進行挑選，在部落格主頁右鍵選擇檢視原始碼，可以找到所需資訊如下 newcomments class panel...

Nodejs爬蟲實戰（六）

Nodejs爬蟲實戰（四）

nodejs簡易爬蟲

網路爬蟲 Nodejs

相關推薦