《資料科學 R語言實現》 2 7 爬取網路資料

2021-09-23 14:42:12 字數 1533 閱讀 7116

在多數情況下,資料並不會存在於資料庫中,相反它們以各種形式遍布於網際網路上。為了從這些資料來源中挖掘更有價值的資訊,我們需要知道如何在網路上訪問和爬取資料。這裡,我們會介紹如何使用rvest程式包從上收集財經資料。

準備工作

在本教程中,你需要給開發環境安裝r,同時確保計算機可以訪問網際網路。

實現步驟

執行下列步驟,從爬取資料。

1.首先,訪問下列鏈結,瀏覽彭博商業上的標普500指標:quote/spx:ind

2.頁面出現後,如圖9所示。我們可以安裝載入rvest程式包:

3.你可以使用rvest程式包中的函式html爬取和解析 中指向標普500指數的html網頁:

4.使用瀏覽器的內建網頁檢視器,檢視下列指標圖中的具體**位置(如圖10中用紅框標記):

5.你可以移動滑鼠檢視具體**,單擊希望爬取的目標元素。如圖11所示,

部分包含所有所需的資訊:

10.接著,我們可以通過下列鏈結,訪問能源和石油市場指數頁面,如圖12所示。

11.然後我們使用網頁檢視器檢視表元素的位置,如圖13所示。

12.我們可以使用html_table,通過data-table類抽取表元素:

2.單擊右上角圖示開啟selectorgadget,選取需要爬取的區域。被選區域會變成綠色,如圖15所示。這個工具會展示區域的css路徑,以及與路徑匹配的元素數目:

2.然後,使用下列命令啟動selenium單機伺服器:

3.如果你成功地啟動了selenium單機伺服器,你應該看到下列資訊,如圖17所示。它意味著你可以通過埠4444連線伺服器了:

4.現在,你可以使用下列命令安裝載入rselenium:

《資料科學 R語言實現》 1 2 建立R函式

r語言是函式的集合 使用者可以在專案中使用各個程式包中的內建函式,或者為專門的目的定義新的函式。在本教程中,我們會展示如何建立乙個r函式。執行下列步驟來建立你的第乙個r函式。1.在r控制台中鍵入下列 建立第乙個函式 2.使用下列命令,執行使用者定義的函式addnum 或者,你也可以不使用return...

《資料科學 R語言實現》 3 7 捨棄資料

在之前的教程中,我們介紹了如何修改和過濾資料集。這些步驟基本上涵蓋了資料預處理和資料準備的主要過程。但是,我們還想找出資料集中的壞資料。那些壞資料或者不想要的資料應該丟棄,避免生成誤導的結果。這裡,我們會介紹一些移除無用資料的實用方法。按照3.3節 轉換資料型別 教程,把匯入資料的每個屬性轉換成合適...

《資料科學 R語言實現》 3 8 合併資料

資料合併讓我們理解不同資料來源是如何相互關聯的。r中的merge操作與資料庫中的join操作類似,它使用兩個資料集中相同的值來連線兩個資料集。按照3.3節 轉換資料型別 教程,把匯入資料的每個屬性轉換成合適的資料型別。同時按照3.2節 重新命名資料變數 中的步驟,命名employees和salari...