R爬蟲實戰1（學習）基於RVEST包

這裡用hadley wickham開發的rvest包。再次給這位矜矜業業開發各種好用的r包的大神奉上膝蓋。

查閱資料如下：

rvest的github

rvest自身的幫助文件

言歸正傳，拿了幾個網頁練手。包括對拉勾網爬了一下蟲，還嘗試了對國外某黃頁爬蟲，對ebay使用者評價爬蟲分析其賣家賣的東西主要在哪個**段（我查的那個賣家，賣8.99和39.99最多，鞋子類），做了一下文字挖掘，還有爬了一下**資料，****情況等等。

之所以放拉勾網為例子，因為這個大家都比較熟一點？其他的都有點小眾=_=而且雖然我沒有跳槽的心，但年初卻是很多人跳槽的熱點。另外，因為之前聽人說過，要了解乙個公司的動態，有乙個辦法是去看這個公司放出來的招聘崗位，可以知道他們最近哪個業務線要擴張了，哪個業務線要跑人了，以及了解技術需求。

library(rvest)

lagou

=&workaddress=&city=%e6%b7%b1%e5%9c%b3&requestid=&pn=3"

web#之前我是用關鍵字搜尋，閱讀html**，獲得html_nodes裡需要什麼屬性，不過許多瀏覽器有開發者工具，可以直接獲得層級資訊。如遨遊

position% html_nodes("li div.hot_pos_l a") %>% html_text()

#上面就是直接讀取資料，獲得位置資訊

#不過在後面做其他**時發現，有時候資訊儲存在同類資料裡(如div沒有class等等)，建議是找乙個大的分類，先獲得**資訊，再做資料

list_lagou% html_nodes("li.clearfix")

#這裡正確找準正確的劃分點很重要。有odd clearfix">，其實用li.clearfix一樣可以取(對於空格二選一，如"li.odd"或者"li.clearfix")

#接下來的company/position照選即可，因為事先已經分好了list，所以每乙個出多少心裡有數。。

在講完原理之後，現在開始嘗試寫**

因為裡面涉及太多的選取資料工作。為了避免出現太多變數，我最後是編了乙個函式，輸出資料庫。

#下面開始寫**,首先寫乙個函式getdata，會輸出乙個資料框
getdata
> url
> final
> for (i in 3) #定義個數，把上面的getdata得到的data.frame合併
關於這個資料有什麼用呢…… 簡單來說，我們可以用它來看這個網上有多少在招的，各公司招人的比例，以及薪資水平，做一點基礎的資料分析。
雖然我現在不跳槽，不過了解一下市場狀況也是不錯的~譬如見下圖，從目前這網上的平均薪資與工作年限
的關係來看，資料分析崗至少在職位前五年屬於薪資增長期，初始漲得快，後面漲得慢，但平均應有13%左右的增長？然後這網上目前沒有什麼高階崗位開出來（工作5-10年的崗位很少），反而是有些公司搞錯分類，放了一堆資料錄入的到資料分析欄目。
（等待……**還需要完善，要設定間隔時間，要不然會被當掉！！！）
 R語言爬蟲初嘗試 基於RVEST包學習
注意 這文章是2月份寫的，拉勾網早改版了，已經失效了，大家意思意思就好，主要看 的使用方法吧。最近一直在用且有維護的另乙個爬蟲是kindle 書爬蟲，blog位址見此 部落格內容簡介及目錄 r語言爬蟲初嘗試 基於rvest包學習 thursday,february 26,2015 在學完course...
R 語言爬蟲 rvest 包實戰鏈家爬蟲
rvest包簡介 rvest包是hadley wickham大神開發的乙個專門用於網路資料抓取的r語言包，目前的發行版本為0.3.2，關於rvest包的描述以及用法可參考rvest幫助文件，花上一點時間閱讀幫助文件，相信你就可以寫出自己的爬蟲了。help package rvest rvest幫助文...
基於Python的爬蟲實戰
方法 一 使用bs4包 1.獲取酷狗 內容 coding utf 8 import requests,urllib from bs4 import beautifulsoup import os result urllib.request.urlopen 2.根據html結構獲取目標標籤內容 sou...

R爬蟲實戰1（學習） 基於RVEST包

R語言爬蟲初嘗試 基於RVEST包學習

R 語言爬蟲 rvest 包實戰鏈家爬蟲

基於Python的爬蟲實戰

相關推薦

R爬蟲實戰1（學習）基於RVEST包

R語言爬蟲初嘗試基於RVEST包學習