使用R語言篩選資料中的重複行

2021-10-23 11:12:42 字數 831 閱讀 2745

在進行資料的預處理時,我們常常關注有無重複資料,如果兩行資料完全一致,則可能存在資料的重複錄入等情況,此時就要對這兩行資料進行核實。但這個過程如何用r語言實現?筆者近期對這個問題進行了探索。

我們首先虛擬乙個資料,並將這個資料儲存為csv檔案,命名為"a.csv「,資料如下圖:

我們首先讀入資料,並檢視資料讀入是否正確:

a

"a.csv"

)head(a)

r語言裡有乙個判斷重複值的函式duplicated,可以分別執行如下三行程式,分別輸出每一行資料和前面是否是重複的,重複資料,重複資料所在的行:

duplicated(a)

a[duplicated(a),]

which(duplicated(a)

)

但上面這段**存在的問題是,只能找到第二次及以後出現的資料,我們並不能找到這行資料第一次出現的位置。

對重複資料的理解狀態是輸出所有的重複資料及所在的行,再進行判斷,這就需要寫出來相應的**去實現。具體的思路是先找出重複的行,賦值到資料框b中,然後判斷b的每一行和a是否重複,經過嘗試,**如下:

b

),]for

(i in c(

1:nrow(b)))

}}

輸出的結果如下:

R語言資料按行去除重複

在臨床上,偶爾會出現需要分析病例資料的情況。通常為了保護隱私,患者的個人識別相關的關鍵資訊會被剔除只保留病歷號,但是患者的就診行為可能不止一次,這也就導致了我們的資料出現了重複,把這些資料直接放到一起進行分析顯然是不科學的。首先觀察自己的資料,如果是用行來代表觀測的話,可以使用dplyr包disti...

篩選List中重複的資料

1.宣告list集合,並放入測試資料 listlist new arraylist list.add 測試 list.add 測試 list.add 測試2 list.add 測試2 list.add 測試2 list.add 測試3 list.add 測試3 list.add 測試2 list.a...

使用r語言 《R語言資料高效處理指南》的使用指南

r語言資料高效處理指南 黃天元 摘要 書評 試讀 京東圖書 item.jd.com 作為本書的作者,我必須對這本書的使用方法做乙個宣告,以便於達到我最初寫這本書的期望,希望能夠幫助到這本書的讀者和潛在讀者。1 這本書寫得很簡單,所以可以讀快一點。對框架的理解比對細節的熟悉更重要,因為在實踐中還可以多...