《資料科學 R語言實現》 3 8 合併資料

2021-10-01 01:18:21 字數 970 閱讀 3912

資料合併讓我們理解不同資料來源是如何相互關聯的。r中的merge操作與資料庫中的join操作類似,它使用兩個資料集中相同的值來連線兩個資料集。

按照3.3節「轉換資料型別」教程,把匯入資料的每個屬性轉換成合適的資料型別。同時按照3.2節「重新命名資料變數」中的步驟,命名employees和salaries資料集的列名。

執行下列步驟,合併salaries和employees。

1.因為salaries和employees都有emp_no,我們可以使用emp_no作為連線鍵合併兩個資料集:

2.我們可以給捨棄的屬性指定null值:

3.除了使用函式merge,我們可以安裝載入plyr程式包來運算元據:

4.我們可以使用plyr中的函式join來合併資料:

與資料庫中的資料表類似,我們有時候也需要合併兩個資料集,進而進行資料關聯。在r中,我們只需要使用函式merge合併相同列值下的兩個資料框。

在函式merge中,我們使用salaries和employees作為輸入資料框。對於by引數,我們指定emp_no作為鍵合併這兩個表。然後,我們看到在emp_no上取值相同的資料合併到了乙個新的資料框中。但是,有時我們希望執行左連線或者右連線,以達到保留employees或salaries所有資料值的目的。要執行左連線,我們設定all.x為true。然後我們發現employees所有行都在合併結果中保留了下來。相反,如果我們希望保留salaries的所有行,我們可以設定all.y為true。

除了使用內建的merge函式,我們可以安裝載入plyr程式包來合併資料集。join的用法與merge類似,我們只需要指定要合併的資料以及by引數中相同值所在的列。

在plyr程式包中,我們可以使用函式join_all,在乙個列表中遞迴地連線資料集。這裡,我們可以使用join_all按照emp_no合併employees和salaries資料集:

《資料科學 R語言實現》 3 7 捨棄資料

在之前的教程中,我們介紹了如何修改和過濾資料集。這些步驟基本上涵蓋了資料預處理和資料準備的主要過程。但是,我們還想找出資料集中的壞資料。那些壞資料或者不想要的資料應該丟棄,避免生成誤導的結果。這裡,我們會介紹一些移除無用資料的實用方法。按照3.3節 轉換資料型別 教程,把匯入資料的每個屬性轉換成合適...

《資料科學 R語言實現》 1 2 建立R函式

r語言是函式的集合 使用者可以在專案中使用各個程式包中的內建函式,或者為專門的目的定義新的函式。在本教程中,我們會展示如何建立乙個r函式。執行下列步驟來建立你的第乙個r函式。1.在r控制台中鍵入下列 建立第乙個函式 2.使用下列命令,執行使用者定義的函式addnum 或者,你也可以不使用return...

《資料科學 R語言實現》 1 4 理解環境

除了函式名 函式體和形參,環境也是函式的另乙個基本組成部分。簡單地說,環境是r管理和儲存各種型別變數的地方。除了全域性環境外,每乙個函式會在建立之初啟用自己的環境。在本教程中,我們會展示每乙個函式的環境是如何工作的。確保你已經在作業系統中安裝了r語言,完成了之前的步驟。執行下列步驟來使用環境。1.你...