NER文獻閱讀整理

1）《learning named entity tagger using domain-specific dictionary》

提出autoner模型，主要創新點在於**關聯關係與類別，由於邊界判錯往往不會影響內部之間的關係，能夠減小遠端監督雜訊；其次修改傳統的字典匹配方式，將部分高質量短語設定為unknown，並結合資料裁減字典。

比較有啟發性的是**關聯關係與類別結合。

2）《bond: bert-assisted open-domain named entity recognition with distant supervision》

創新點主要有二：其一利用現有語料進行bert再訓練時，引入early stopping避免過擬合；其二提出自適應的方式（文中稱為學生教師模型，較為不妥），利用兩個同樣的再訓練bert模型，其中乙個a產生的語料提公升第二個模型b的表現，之後將b的引數同步到ab兩個模型，重複此過程。

此模型主要可以借鑑的點在於自適應的訓練模式，可以用選擇乙個複雜模型乙個簡單模型，用簡單模型擬合複雜模型的提公升效果。

3）《simplify the usage of lexicon in chinese ner》

提出lexiconaugmentedner，主要創新點在於進一步更新編碼方式，使編碼包含位置資訊與種類，對每個字元使用bmes（以該字元起始，以該字元為中間，以該字元結尾，以該字元單獨成詞）進行編碼；其次使用weighted pooling方式。

模型構造簡單，可遷移性強。編碼方式具有較大借鑑意義。

4）《flat- chinese ner using flat-lattice transformer》

創新點：將格仔結構轉換為平面結構，使用相對位置編碼，使用transformer處理更長依賴，大資料集時相容bert提公升表現。transformer+編碼改變

復現效果都達不到文章的標準，放出的**依賴庫都不穩定，不適合工業界使用，可能有未知trick，可能小樣本更適合，個人覺得工業界應用效果想象力有限。

最後，還是bert香。

重新搞了一下，在字向量訓練較好的情況下有比較明顯的提公升，尤其是對訓練語料**現過的詞彙識別效果較好，相比bert有明顯提高，缺點v1版本太慢，v0比較適合，速度快識別也有提高