爬蟲工具可以幹什麼 nodejs爬蟲入門

2021-10-14 10:46:00 字數 1617 閱讀 5118

weixin public space:fullstackengineer

本篇從零介紹一下爬蟲,使用的技術以nodejs為基礎。

爬蟲是什麼?

實現爬蟲的工具

能發起http請求的工具,在nodejs中你可以選擇http模組的request方法或者get方法,或者使用第三方包superagent網頁解析資料篩選。網頁資料解析工具,在nodejs中,可以通過cherrio或者jsdom兩個第三方包完成。

注意完整版本的**請在github獲取:

下面用三種方式去實現

這種方式還是比較簡單的,容易理解,直接使用http的get方法進行請求url,將得到的內容給cheerio解析,用jquery的方式解析出我們要東西即可。

需要注意的是得到的結果中文亂碼,要用iconv-lite模組將得到的內容進行轉碼即可。

這種方式在獲取內容的方式上與上有些不同,可以直接獲取到buffer型別的資料。然後將得到的內容給cheerio解析,用jquery的方式解析出我們要東西即可。

request(options,function(err,res,body)});
3.superagent+cheerio+superagent-charset

這種方式是比前面兩個有較大差別,用了superagent的get方法發起請求,解碼的時候用到了superagent-charse,用法還是很簡單的,之後再將獲取到的內容給cheerio解析,用jquery的方式解析出我們要東西即可。

這裡中文亂碼可以使用superagent-charset模組進行轉碼,方式較之上面有點差別。

var charset = require("superagent-charset");var superagent = charset(require("superagent")); //將superagent模組傳遞給superagent-charset...superagent.get(url) .charset('gb2312') //用charset方法達到解碼效果。 .end(function(err,result));
總結一下爬蟲的實質就是發起請求,解析資料,無論用那個包,哪種方式都是乙個目的。重在理解它要幹什麼,幹了什麼,怎麼幹的方式有很多種,其實nodejs並不適合去做這一類工作,只是為了學習使用它,像我們工作中更常用的是python去做爬蟲自動化工作,相信大家理解了原理很快能上手。

學習python可以幹什麼

python是什麼?python的中文名稱是蟒蛇,是一種計算機程式語言 是一種動態的 物件導向的指令碼語言。最初是用來編寫自動化指令碼的,隨著版本的不斷更新和語言新功能的新增,越來越多被用於獨立的 大型專案的開發。python語言的特點 1www.cppcns.com 簡單易學 2 速度快 pyth...

什麼是docker,它可以幹什麼

我們知道,軟體依賴的環境大致包括 docker作為乙個軟體貨櫃化平台,可以讓開發者構建應用程式時,將它與其依賴環境一起打包到乙個容器中,然後很容易地發布和應用到任意平台中。鯨魚是作業系統。要交付的應用程式是各種貨物,要將各種形狀和尺寸不同的貨物放到大鯨魚上,得考慮每件貨物怎麼安放 應用程式配套的環境...

Python可以用來幹什麼?

在我看來,基本上可以不負責任地認為,python 可以做任何事情。無論是從入門級選手到專業級選手都在做的爬蟲,還是web 程式開發 桌面程式開發還是科學計算 影象處理,python都可以勝任。python為我們提供了非常完善的基礎 庫,覆蓋了網路 檔案 gui 資料庫 文字等大量內容,被形象地稱作 ...