關於實體識別探索的一點點思考

請輸入要實體識別的文字:

海鷗裝飾材料****是做裝飾的一家高科技公司

然後識別出組織機構所在的位置和類別

非結構化資料（例如文字）的資訊抽取是人工智慧的重要組成部分。能否進行準確的實體識別，關係抽取，事件抽取，摘要生成是整個人工智慧領域大廈的基石。如果非結構話資料資訊抽取做不好，後面的推薦，推理將會涉及繁瑣的人力勞動，這些煩亂的布局甚至讓後續工作無法高效開展。目前已經有opennre,blstm-crf，bert-資訊抽取等開源**。雖然bert和opennre這樣的模型效果非常好。但是作為大多數企業來說，預訓練成本巨大，而且還會出現過擬合。本部落格重點討論簡單實用的實體識別小模型。

blstm-crf目前在實體識別這一研究主題的效果在bert之前可謂大名鼎鼎，模型小，效率高，是大多數公司的不二之選。blstm是雙向rnn結構，提取序列特徵，crf在**的標籤之間擁有轉移概率矩陣。那麼有什麼改進方向嗎？待優化方案如下：

1.blstm-crf方案：模型上主要是針對lstm這種rnn的結構進行優化，當前難點主要是crf計算量偏大，目前標籤轉移矩陣通過加的式，如果換成乘積的方式。也可以。

2.tranformer-crf方案：因為沒有文字沒有緊跟的前後資訊，單憑全自注意力特徵，訓練難度較大。根據自己模型跑出的效果，個別文字比blstm-crf的效果好。

3.transformer-blstm-crf方案：容易出現過擬合，訓練集準確率100%,測試集太差。

4.self-attention-crf：針對過擬合優化，有改善。

5.self-attention-blstm-crf：效果一般，待優化

6.模擬思想，遷移mobilenet在影象檢測中手段。也即把影象中檢測目標的任務遷移到文字實體的檢測中，有待實踐。

實體識別的任務離真實的實際產品上線還有很長一段距離，但是背後的原理不僅僅將其看做實體位置和實體類別的一種分類，更需要在這個點上做大量的嘗試和探索。

關於實體識別探索的一點點思考

關於人生的一點點思考

關於樣本均衡的一點點思考

關於Lisp的一點點

關於實體識別探索的一點點思考

關於人生的一點點思考

關於樣本均衡的一點點思考

關於Lisp的一點點

相關推薦