自監督學習對比學習自監督

關於bert的無監督聚類的一些說法

1.首先一點是在不finetune的情況下，cosine similairty絕對值沒有實際意義，bert pretrain計算的cosine similairty都是很大的，如果你直接以cosine similariy>0.5之類的閾值來判斷相似不相似那肯定效果很差。如果用做排序，也就是cosine(a,b)>cosine(a,c)->b相較於c和a更相似，是可以用的。總而言之就是你模型評價的標準應該使用auc，而不是accuracy

2.短文本（新聞標題）語義相似度任務用先進的word embedding（英文fasttext/glove，中文tencent embedding）mean pooling後的效果就已經不錯；而對於長文字（文章）用simhash這種純詞頻統計的完全沒語言模型的簡單方法也ok

3.bert pretrain模型直接拿來用作 sentence embedding效果甚至不如word embedding，cls的emebdding效果最差（也就是你說的pooled output）。把所有普通token embedding做pooling勉強能用（這個也是開源專案bert-as-service的預設做法），但也不會比word embedding更好。

4.用siamese的方式訓練bert，上層通過cosine做判別，能夠讓bert學習到一種適用於cosine作為最終相似度判別的sentence embedding，效果優於word embedding，但因為缺少sentence pair之間的特徵互動，比原始bert sentence pair fine tune還是要差些。參考siamese bert

自監督學習對比學習自監督

和對比對比自監督學習

對比學習自監督學習的理解

自監督學習之SimCLR總結

自監督學習 對比學習自監督

和 對比 對比自監督學習

對比學習 自監督學習的理解

自監督學習之SimCLR總結

相關推薦

自監督學習對比學習自監督

和對比對比自監督學習

對比學習自監督學習的理解