MongoDB雜湊分片為什麼分布不均勻？

今天接到乙個使用者反饋的問題，sharding集群，使用wiredtiger引擎，某個db下集合全部用的hash分片，show dbs發現其中乙個shard裡該db的大小，跟其他的集合差別很大，其他基本在60g左右，而這個shard在200g左右？

由於這個db下有大量的集合及索引，一眼也看不出問題，寫了個指令碼分析了一下，得到如下結論

somedb 下所有集合都是hash分片，並且chunk的分布是比較均勻的

show dbs 反應的是集合及索引對應的物理檔案大小

集合的資料在各個shard上邏輯總大小是接近的，只有shard0占用的物理空間比其他大很多

從shard0上能找到大量 movechunk 的記錄，猜測應該是集合的資料在沒有開啟分片的情況下寫到shard0了，然後開啟分片後，從shard0遷移到其他shard了，跟使用者確認的確有一批集合是最開始沒有分片。

所以這個問題就轉換成了，為什麼複製集裡集合的邏輯空間與物理空間不一致？即collection stat 裡size與storagesize的區別。

mymongo:primary> db.coll
.stats()

邏輯儲存空間與物理儲存空間有差距的主要原因

儲存引擎儲存時，需要記錄一些額外的元資料資訊，這會導致物理空間總和比邏輯空間略大

儲存引擎可能支援資料壓縮，邏輯的資料塊儲存到磁碟時，經過壓縮可能比邏輯資料小很多了（具體要看資料的特性，極端情況下壓縮後資料變大也是有可能的）

而上述case裡，集合資料先分到乙個shard，然後啟用分片後，遷移一部分到其他shard，就是乙個典型的產生大量儲存碎片的例子。儲存碎片對服務通常影響不大，但如果因為空間不夠用了需要**，如何去強制的**這些碎片空間？