NLP 基礎問題及解析

nlp 基本知識

nlp問題主要是對字詞、短語、句子、篇章的處理，這一切問題主要包含兩個層次：結構、語義。解決這些問題離不開兩個基本概念：語言模型、序列標註。

一、語言模型

語言模型是指用數學的方法描述語言規律，統計語言模型是用句子a出現的概率p(a)來刻畫句子的合理性，常用的有 n-gram模型

二、詞向量

離散的表示：one_hot ，詞袋模型，tf-idf

分布式表示：分布式表示，word2vec中的cbow，skip_gram

哈夫曼樹：一種帶權路徑長度最短的二叉樹，也稱最優二叉樹。

三、序列標註

nlp許多任務可以轉化為『將輸入的語言序列轉化為標註序列』，例如命名實體識別，詞性標註

常用方法：隱馬爾可夫模型hmm，條件隨機場crf，神經網路與條件隨機場結合 rnn+crf

四、詞性分析

詞是語言處理的最小單位，詞法分析是一切自然語言處理問題(句法分析，語義分析，文字分類，資訊檢索，機器翻譯，機器問答等)的基礎。詞法分析的任務就是將輸入的句子字串轉換成詞序列並標記出各詞的詞性。英語是曲折語，漢語是孤立語。

英語詞法分析主要是英文詞識別，詞形還原；未登陸詞識別；詞性標註。漢語詞法分析主要是分詞；未登陸詞識別；詞性標註。

中文詞法分析：1、自動分詞（歧義問題、未登陸詞問題、分詞標準問題）；2、詞性標註（詞性兼類歧義問題）。處理方法主要有規則法，概率統計法，深度學習法。成熟的分詞系統，是綜合不同的演算法來處理不同的問題。

分詞技術方法：1、基於字典、詞庫的規則分詞方法（正向最大匹配、逆向最大匹配、最少切分法、雙向最大匹配法），規則方法處理歧義能力較弱；2、基於統計的方法，根據字、詞按照序列標註方法進行處理，處理歧義問題強，但需要大量標註（預處理）語料庫的支援。3、深度學習方法，從句子獲取的簡單特徵變為複雜的特徵，從單一預料庫單一標準的模型改進為可以利用多語料進行分詞。

詞性標註：主要問題是詞性兼類問題(多義詞)，詞性標準問題可以轉化為序列標註問題來解決。

詞法分析，現階段主流方法是將其轉化為序列標註問題。

五、句法分析

句法分析的任務是確定句子的句法結構或句子中詞彙的依存關係，分為完全句法分析、區域性句法分析、依存關係分析。

完全句法分析：文章經過詞法分析後，通常用短語結構樹表示，通過層次分析法可以構建短語結構樹。

層次分析是利用語言學方法，從句子結構層面進行分析，1、將句子劃分為主謂賓定狀補等成分；2、以詞或片語作為劃分成分的基本單位；3、根據六個成分的搭配排列按層次順序確定句子的格局。一般以樹結構表示結構，我們將其稱為句法分析樹，找到主謂賓主幹，其他成分作為枝葉。

層次分析法面臨問題：乙個詞類可以做多個句法成分，容易造成歧義/多義。

解決方法：chomsky形式文法，根據重寫規則的形式，將形式文法分為4級：0型文法（無約束文法），1型文法（上下文有關文法），2型文法（上下文無關文法），3型文法（正則文法），多級文法關係如下所示：

通過chomsky形式文法作為刻畫語言規律，表示語言的形式文法。從描述能力上，正則文法描述能力弱，上下文有關文法計算複雜度高，上下文無關文法使用較普遍。

句法分析系列詳細文章：完全句法分析；區域性句法關係、依存關係分析

六、語義分析

語義分析包含：詞彙級語義分析、句子距語義分析

詞彙及語義分析：1、語義消歧；--基於貝葉斯分類器的詞義消歧方法、基於最大熵、互資訊的消歧方法；上下文特徵選取概率最大的結果；

2、詞語相似度；通過詞向量計算詞語距離。詞語相似性反映詞語聚合特點，詞語相關性反映詞語組合特點。

句子級語義分析：淺層語義分析和深層語義分析。淺層語義分析主要是語義角色標註

語義分析詳細文章：語義分析

NLP 基礎問題及解析

NLP常用術語解析

NLP常用術語解析

NLP01 NLP基礎語言模型

NLP 基礎問題及解析

NLP常用術語解析

NLP常用術語解析

NLP01 NLP基礎 語言模型

相關推薦

NLP01 NLP基礎語言模型