中文命名實體識別

2021-10-01 14:31:27 字數 551 閱讀 9118

命名實體識別是nlp裡一項很基礎的任務,就是從文字中識別出命名性指稱項,為關係抽取等任務做鋪墊。狹義上,是識別出人名、地名和組織機構名這三類命名實體(時間、貨幣名稱等構成規律明顯的實體型別可以用正則等方式識別)。當然,在特定領域中,會相應地定義領域內的各種實體型別。

1.中文文字不像英文有空格作為詞語的界限標誌,而且中文詞的概念很模糊,也不具備英文中的字母大小寫等形態指示

2.中文的用字靈活多變,有些詞語在脫離上下文語境的情況下無法判斷是否是命名實體,而且就算是命名實體,當其處在不同的上下文語境下也可能是不同的實體型別

3.命名實體存在巢狀現象,如「北京大學第三醫院」這一組織機構名中還巢狀著同樣可以作為組織機構名的「北京大學」,而且這種現象在組織機構名中尤其嚴重

4.中文裡廣泛存在簡化表達現象,如北京大學,簡稱北大。

根據對資料的了解,利用規則匹配來識別出命名實體。例如,文字中提到「說」、「老師」等詞語可作為人名的下文,「地鐵站」、『大廈』可以做地名的下文,還可以利用詞性,句法結構等。如果要做其他語言的實體識別,還需要注意語法結構不同,那麼識別規則也不盡相同。此外,構建規則的過程費時費力、可移植性不好。

命名實體 中文命名實體識別簡介

一切具有特定屬性集合的物體都可以稱為實體。一般包括三大類 實體類 時間類 數字類 七小類 人名 機構名 地名 時間 日期 貨幣和百分比 1 確定實體的邊界,即確定哪些詞屬於實體。2 確定實體的類別,即確定實體屬於人名或者機構名等。1 各類命名實體沒有嚴格的命名規範 2 中文命名實體沒有類似英文明確的...

ai命名實體識別模型 命名實體識別

crf中有兩類特徵函式,分別是狀態特徵和轉移特徵,狀態特徵用當前節點 某個輸出位置可能的狀態中的某個狀態稱為乙個節點 的狀態分數表示,轉移特徵用上乙個節點到當前節點的轉移分數表示。其損失函式定義如下 crf損失函式的計算,需要用到真實路徑分數 包括狀態分數和轉移分數 其他所有可能的路徑的分數 包括狀...

命名實體識別

簡單的分詞器 如二元分詞器 無法識別oov,所以需要運用一些規定的規則來輔助識別 如 在識別音譯人名時,可以設定規則 一旦發現某詞是人名,而該詞後面跟隨人名詞時,將他們合併 針對不同情況,需要設計相應的標註集 拿人名識別舉例 輸入資料集進行訓練後,會將人名拆分為碎片,模擬人名的錯誤切分.接著,檢查拆...