機器學習（三十七）樣本負取樣對應修正公式

對於巨型網際網路公司來說，為了控制資料規模，降低訓練開銷，降取樣幾乎是通用的手段，facebook 實踐了兩種降取樣的方法，uniform subsampling 和 negative down sampling。

uniform subsampling 是對所有樣本進行無差別的隨機抽樣，為選取最優的取樣頻率，facebook 試驗了 0.001，0.01，0.1，0.5 和 1 五個取樣頻率，loss 的比較如下：當取樣率是 10% 時，相比全量資料訓練的模型，僅損失了不到 1% 的效果。

negative down sampling保留全量正樣本，對負樣本進行降取樣。除了提高訓練效率外，負取樣還直接解決了正負樣本不均衡的問題，facebook 經驗性的選擇了從 0.0001 到 0.1 的一組負取樣頻率。當負取樣頻率在 0.025 時，loss 不僅優於更低的取樣頻率訓練出來的模型，居然也優於負取樣頻率在 0.1 時訓練出的模型。

負取樣帶來的問題是 ctr 預估值的漂移，比如真實 ctr 是 0.1%，進行 0.01 的負取樣之後，ctr 將會攀公升到 10% 左右。而為了進行準確的競價以及 roi 預估等，ctr 預估模型是要提供準確的有物理意義的 ctr 值的，因此在進行負取樣後需要進行 ctr 的校正，使 ctr 模型的預估值的期望回到 0.1%。校正的公式如下：

ctr預估的負取樣比率修正公式

降取樣和模型校正

ctr負取樣矯正原理

機器學習（三十七）樣本負取樣對應修正公式

shell學習三十七天引用

學習前端的第三十七天

機器學習樣本處理

機器學習（三十七） 樣本負取樣 對應修正公式

shell學習三十七天 引用

學習前端的第三十七天

機器學習 樣本處理

相關推薦

機器學習（三十七）樣本負取樣對應修正公式

shell學習三十七天引用

機器學習樣本處理