實體對齊之bert度量虛擬文件的相似度

基於bert度量實體之間的相似度

基本思想：將實體的對齊問題轉換成文字之間的相似度度量問題

準備工作：bert的預訓練模型（google提供了中文的預訓練模型），實體相似度的標記文字

a． bert的預訓練模型

模型的輸入（每個單詞有三個embedding，把單詞對應的三個embedding疊加）

（1）token embeddings表示的是詞向量，第乙個單詞是cls，可以用於之後的分類任務

（2）segment embeddings用來區別兩種句子，因為預訓練不光做lm還要做以兩個句子為輸入的分類任務

（3）position embeddings表示位置資訊

預訓練的原理：masked lm（遮住部分單詞讓編碼器根據上下文學習）和下一句**（挖掘出句子之間的關係）

（使用google提供的預訓練模型）

b．實體相似度的標記文字

使用自定義的標記演算法對兩個知識庫的部分實體文字對的關係進行標記，標記為1表示相似實體，標記為0表示不相似實體；

標記方法詳情如下：

a．人為的將實體的相似度分為屬性值之間的相似度sim_attr和實體名稱的相似度兩部分sim_name。屬性值的相似度又分為數值型別屬性值的相似度sim_number和文字型別屬性值的相似度sim_text，實體1和實體2的相似度定義為sim_entity(1,2)=αsim_name+β(γsim_number+νsim_text)。其中，文字型別屬性值的相似度使用詞袋模型進行度量，數值型別屬性值的相似度使用集合的相似度來度量，實體名稱直接採用詞語之間的相似度進行度量。

領域專家對標記的實體對進行調整篩選，得到比較準確的實體相似度的標記文字。需要注意相同的實體之間的相似度能盡量接近1最好，通過這個限制條件控制並調整第一步的各個閾值。

備註：標記文字格式為「虛擬文件1，虛擬文件2，0/1」,其中虛擬文件1和虛擬文件2分別由知識庫a和知識庫b的實體構建

實體對齊之bert度量虛擬文件的相似度

實體對齊演算法知識融合（實體對齊）筆記

命名實體識別實踐（bert 微調）

Bert編碼訓練NER實體偏移的問題

實體對齊之bert度量虛擬文件的相似度

實體對齊 演算法 知識融合（實體對齊）筆記

命名實體識別實踐（bert 微調）

Bert編碼訓練NER實體偏移的問題

相關推薦

實體對齊演算法知識融合（實體對齊）筆記