如何在Mongodb集合中統計去重之後的資料

2021-12-30 03:07:18 字數 1196 閱讀 8219

比方說我們有個mongodb集合,

以這個簡單的集合為例,我們需要集合中包含多少不同的手機號碼,首先想到的應該就是使用distinct關鍵字,

db.tokencaller.distinct('caller').length

如果想檢視具體的而不同的手機號碼,那麼可以省略後面的length屬性,因為db.tokencaller.distinct('caller')返回的是由所有去重手機號碼組成的陣列。

但是,這種方式對於所有情況都是滿足的嘛?並不如此,如果要統計的集合記錄數較大,如千萬級別的,那麼在這麼統計的時候往往會報10044錯誤,提示資訊「exception : distinct too big , 16mb cap」. 後面我們將通過其他方式進行解決。

另外一種方式可以使用runcommand結合distinct進行使用,

可見在values上顯示了去重之後的手機號碼,,看結果是乙個json格式的,於是嘗試了下看看能不能取出values的大小,因為如果對於大資料量的集合來說,直接顯示去重的號碼明顯不合適,於是嘗試了下面的寫法:

發現是可以的,於是對大資料量使用了這種方式看看是否能取出結果,發現不存在length屬性,想了想應該跟mongodb的客戶端版本有關係吧,還待驗證!!!

兩種方式都不行,於是試了下mapreduce方式,具體如下:

然後我們會發現,他會將查詢出來的結果輸出到乙個稱為「callerstatis」的結合,如下所示:

然後使用db.callerstatis.count()就可以知道有多少不同的手機號碼了。

使用這種方式,我們同樣在大資料量的集合上試了一下,可惜還是失敗了!!!!

如何在SAP雲平台上使用MongoDB服務

首先按照我這篇文章在sap雲平台上給您的賬號分配mongbodb服務 如何在sap雲平台的cloud foundry環境下新增新的service 1.使用命令列 cf marketplace檢視當前sap雲平台的mongodb的版本號 在我使用的sap雲平台上是v3.0 dev 使用如下命令列建立乙...

如何在公網中連線MongoDB資料庫例項

通過公網連線至mongodb例項存在一定的安全風險,建議通過ecs例項連線mongodb例項。方法一 通過ip查詢定位公網位址並連線例項 訪問ip位址庫查詢您的公網位址。不限於下圖中的位址庫,你可以去搜尋很多公開的位址庫使用。將獲取到的公網位址新增至mongodb白名單中。在本地裝置上,通過mong...

mongodb如何查詢A集合內容後對B集合進行修改

背景 公司有collection a plete 部分document缺失時間資料,而時間資料在collection b metadata 需求 找出collection plete中缺失時間的記錄,通過matchid在collection metadata中找出時間資料 寫入collection ...