NLP常用術語解析

分詞（segment）：中英文都存在分詞的問題，不過相對來說，英文單詞與單詞之間本來就有空格進行分割，所以處理起來相對方便。但是中文書寫是沒有分隔符的，所以分詞的問題就比較突出。分詞常用的手段可以是基於字典的最長串匹配，據說可以解決85%的問題，但是歧義分詞很難。另外就是當下主流的統計機器學習的辦法，利用hmm/crf這一類的模型解決

詞性標註（label）：基於機器學習的方法裡，往往需要對詞的詞性進行標註。標註的目的是，表徵詞的一種隱狀態，隱藏狀態構成的轉移就構成了狀態轉移序列。例如：蘇寧易購/n 投資/v 了/u 國際公尺蘭/n。其中，n代表名詞，v代表動詞，n,v都是標註。以此類推。

命名實體識別（named entity recognition）：本質上還是標註問題的一種。只不過把標註細化了。比如，蘇寧/cmp_s 易購/cmp_e 是/v b2c/n 電商/n。我們把蘇寧易購標註成cmp_s和cmp_e,分別表徵公司名的起始和結束。這樣，當遇上蘇寧/雲商/易購這種場景時，也可以完整得識別出它是乙個公司名稱。如果，按照傳統的標註方式，蘇寧/cmp 易購/cmp這樣籠統地標註可能會有問題。

句法分析（syntax parsing）：句法分析往往是一種基於規則的專家系統。當然也不是說它不能用統計學的方法進行構建，不過最初的時候，還是利用語言學專家的知識來構建的。句法分析的目的是解析句子的中各個成分的依賴關係。所以，往往最終生成的結果，是一棵句法分析樹。句法分析可以解決傳統詞袋模型不考慮上下文的問題。比如，張三是李四的領導；李四是張三的領導。這兩句話，用詞袋模型是完全相同的，但是句法分析可以分析出其中的主從關係，真正理清句子的關係。

指代消解(anaphora resolution)：中文中代詞出現的頻率很高，它的作用的是用來表徵前文出現過的人名、地名等詞。例如，蘇寧易購坐落在南京，這家公司目前位於中國b2c市場前三。在這句話中，其實「蘇寧易購」這個詞出現了2次，「這家公司」指代的就是蘇寧易購。但是出於中文的習慣，我們不會把「蘇寧易購」再重複一遍。

情感識別（emotion recognition）：所謂情感識別，本質上是分類問題。情感基本可以分類2類或者3類。正面、負面，有時再加上非正非負。一般來說，在電商企業，情感識別可以分析商品評價的好壞，以此作為下乙個環節的評判依據。通常的做法，可以基於詞袋模型+分類器，或者現在流行的詞向量模型+rnn。經過測試後者比前者準確率略有提公升。

糾錯（correction）：自動糾錯在搜尋技術中利用得很多。由於使用者的輸入出錯的可能性比較大，出錯的場景也比較多。所以，我們需要乙個糾錯系統。具體做法有很多，可以基於n-gram進行糾錯，資料結構上，字典樹、有限狀態機可以考慮。

問答系統（qa system）：這是一種類似機械人的人工智慧系統。比較著名的有，ibm watson，google allo，蘋果siri，微軟小冰等等。問答系統往往需要語音識別、合成，自然語言理解、知識圖譜等多項技術的配合才會實現得比較好。個人認為，qa系統是nlp從業者乙個較難做好的產品。

NLP常用術語解析

NLP常用術語解析

NLP專業術語

外貿常用術語常用外貿術語

NLP常用術語解析

NLP常用術語解析

NLP專業術語

外貿常用術語 常用外貿術語

相關推薦

外貿常用術語常用外貿術語