R爬蟲實戰1(學習) 基於RVEST包

2022-08-27 00:57:10 字數 1549 閱讀 6414

這裡用hadley wickham開發的rvest包。再次給這位矜矜業業開發各種好用的r包的大神奉上膝蓋。

查閱資料如下:

rvest的github

rvest自身的幫助文件

言歸正傳,拿了幾個網頁練手。包括 對拉勾網爬了一下蟲,還嘗試了對國外某黃頁爬蟲,對ebay使用者評價爬蟲分析其賣家賣的東西主要在哪個**段(我查的那個賣家,賣8.99和39.99最多,鞋子類),做了一下文字挖掘,還有爬了一下**資料,****情況等等。

之所以放拉勾網為例子,因為這個大家都比較熟一點?其他的都有點小眾=_=而且雖然我沒有跳槽的心,但年初卻是很多人跳槽的熱點。另外, 因為之前聽人說過,要了解乙個公司的動態,有乙個辦法是去看這個公司放出來的招聘崗位,可以知道他們最近哪個業務線要擴張了,哪個業務線要跑人了,以及了解技術需求。

library(rvest)

lagou

=&workaddress=&city=%e6%b7%b1%e5%9c%b3&requestid=&pn=3"

web#之前我是用關鍵字搜尋,閱讀html**,獲得html_nodes裡需要什麼屬性,不過許多瀏覽器有開發者工具,可以直接獲得層級資訊。如遨遊

position% html_nodes("li div.hot_pos_l a") %>% html_text()

#上面就是直接讀取資料,獲得位置資訊

#不過在後面做其他**時發現,有時候資訊儲存在同類資料裡(如div沒有class等等),建議是找乙個大的分類,先獲得**資訊,再做資料

list_lagou% html_nodes("li.clearfix")

#這裡正確找準正確的劃分點很重要。有odd clearfix">,其實用li.clearfix一樣可以取(對於空格二選一,如"li.odd"或者"li.clearfix")

#接下來的company/position照選即可,因為事先已經分好了list,所以每乙個出多少心裡有數。。

在講完原理之後,現在開始嘗試寫**

因為裡面涉及太多的選取資料工作。為了避免出現太多變數,我最後是編了乙個函式,輸出資料庫。

#下面開始寫**,首先寫乙個函式getdata,會輸出乙個資料框

getdata

> url

> final

> for (i in 3) #定義個數,把上面的getdata得到的data.frame合併

關於這個資料有什麼用呢…… 簡單來說,我們可以用它來看這個網上有多少在招的,各公司招人的比例,以及薪資水平,做一點基礎的資料分析。
雖然我現在不跳槽,不過了解一下市場狀況也是不錯的~譬如見下圖,從目前這網上的平均薪資與工作年限

的關係來看,資料分析崗至少在職位前五年屬於薪資增長期,初始漲得快,後面漲得慢,但平均應有13%左右的增長?然後這網上目前沒有什麼高階崗位開出來(工作5-10年的崗位很少),反而是有些公司搞錯分類,放了一堆資料錄入的到資料分析欄目。

(等待……**還需要完善,要設定間隔時間,要不然會被當掉!!!)

R語言爬蟲初嘗試 基於RVEST包學習

注意 這文章是2月份寫的,拉勾網早改版了,已經失效了,大家意思意思就好,主要看 的使用方法吧。最近一直在用且有維護的另乙個爬蟲是kindle 書爬蟲,blog位址見此 部落格內容簡介及目錄 r語言爬蟲初嘗試 基於rvest包學習 thursday,february 26,2015 在學完course...

R 語言爬蟲 rvest 包實戰鏈家爬蟲

rvest包簡介 rvest包是hadley wickham大神開發的乙個專門用於網路資料抓取的r語言包,目前的發行版本為0.3.2,關於rvest包的描述以及用法可參考rvest幫助文件,花上一點時間閱讀幫助文件,相信你就可以寫出自己的爬蟲了。help package rvest rvest幫助文...

基於Python的爬蟲實戰

方法 一 使用bs4包 1.獲取酷狗 內容 coding utf 8 import requests,urllib from bs4 import beautifulsoup import os result urllib.request.urlopen 2.根據html結構獲取目標標籤內容 sou...