使用R語言篩選資料中的重複行

在進行資料的預處理時，我們常常關注有無重複資料，如果兩行資料完全一致，則可能存在資料的重複錄入等情況，此時就要對這兩行資料進行核實。但這個過程如何用r語言實現？筆者近期對這個問題進行了探索。

我們首先虛擬乙個資料，並將這個資料儲存為csv檔案，命名為"a.csv「，資料如下圖：

我們首先讀入資料，並檢視資料讀入是否正確：

a
"a.csv"
)head(a)

r語言裡有乙個判斷重複值的函式duplicated，可以分別執行如下三行程式，分別輸出每一行資料和前面是否是重複的，重複資料，重複資料所在的行：

duplicated(a)
a[duplicated(a),]
which(duplicated(a)
)

但上面這段**存在的問題是，只能找到第二次及以後出現的資料，我們並不能找到這行資料第一次出現的位置。

對重複資料的理解狀態是輸出所有的重複資料及所在的行，再進行判斷，這就需要寫出來相應的**去實現。具體的思路是先找出重複的行，賦值到資料框b中，然後判斷b的每一行和a是否重複，經過嘗試，**如下：

b
),]for
(i in c(
1:nrow(b)))
}}

輸出的結果如下：

R語言資料按行去除重複

在臨床上，偶爾會出現需要分析病例資料的情況。通常為了保護隱私，患者的個人識別相關的關鍵資訊會被剔除只保留病歷號，但是患者的就診行為可能不止一次，這也就導致了我們的資料出現了重複，把這些資料直接放到一起進行分析顯然是不科學的。首先觀察自己的資料，如果是用行來代表觀測的話，可以使用dplyr包disti...

篩選List中重複的資料

1.宣告list集合，並放入測試資料 listlist new arraylist list.add 測試 list.add 測試 list.add 測試2 list.add 測試2 list.add 測試2 list.add 測試3 list.add 測試3 list.add 測試2 list.a...

使用r語言《R語言資料高效處理指南》的使用指南

r語言資料高效處理指南黃天元摘要書評試讀京東圖書 item.jd.com 作為本書的作者，我必須對這本書的使用方法做乙個宣告，以便於達到我最初寫這本書的期望，希望能夠幫助到這本書的讀者和潛在讀者。1 這本書寫得很簡單，所以可以讀快一點。對框架的理解比對細節的熟悉更重要，因為在實踐中還可以多...

使用R語言篩選資料中的重複行

R語言資料按行去除重複

篩選List中重複的資料

使用r語言 《R語言資料高效處理指南》的使用指南

相關推薦

使用r語言《R語言資料高效處理指南》的使用指南