NLP 基礎問題及解析

2022-08-20 05:18:10 字數 2053 閱讀 9444

nlp 基本知識

nlp問題主要是對字詞、短語、句子、篇章的處理,這一切問題主要包含兩個層次:結構、語義。解決這些問題離不開兩個基本概念:語言模型、序列標註。

一、語言模型

語言模型是指用數學的方法描述語言規律,統計語言模型是用句子a出現的概率p(a)來刻畫句子的合理性,常用的有 n-gram模型

二、詞向量

離散的表示:one_hot ,詞袋模型,tf-idf

分布式表示:分布式表示,word2vec中的cbow,skip_gram

哈夫曼樹:一種帶權路徑長度最短的二叉樹,也稱最優二叉樹。

三、序列標註

nlp許多任務可以轉化為『將輸入的語言序列轉化為標註序列』,例如命名實體識別,詞性標註

常用方法:隱馬爾可夫模型hmm,條件隨機場crf,神經網路與條件隨機場結合 rnn+crf

四、詞性分析

詞是語言處理的最小單位,詞法分析是一切自然語言處理問題(句法分析,語義分析,文字分類,資訊檢索,機器翻譯,機器問答等)的基礎。詞法分析的任務就是將輸入的句子字串轉換成詞序列並標記出各詞的詞性。英語是曲折語,漢語是孤立語。

英語詞法分析主要是英文詞識別,詞形還原;未登陸詞識別;詞性標註。漢語詞法分析主要是分詞;未登陸詞識別;詞性標註。

中文詞法分析:1、自動分詞(歧義問題、未登陸詞問題、分詞標準問題);2、詞性標註(詞性兼類歧義問題)。處理方法主要有規則法,概率統計法,深度學習法。成熟的分詞系統,是綜合不同的演算法來處理不同的問題。

分詞技術方法:1、基於字典、詞庫的規則分詞方法(正向最大匹配、逆向最大匹配、最少切分法、雙向最大匹配法),規則方法處理歧義能力較弱;2、基於統計的方法,根據字、詞按照序列標註方法進行處理,處理歧義問題強,但需要大量標註(預處理)語料庫的支援。3、深度學習方法,從句子獲取的簡單特徵變為複雜的特徵,從單一預料庫單一標準的模型改進為可以利用多語料進行分詞。

詞性標註:主要問題是詞性兼類問題(多義詞),詞性標準問題可以轉化為序列標註問題來解決。

詞法分析,現階段主流方法是將其轉化為序列標註問題。

五、句法分析

句法分析的任務是確定句子的句法結構或句子中詞彙的依存關係,分為完全句法分析、區域性句法分析、依存關係分析。

完全句法分析:文章經過詞法分析後,通常用短語結構樹表示,通過層次分析法可以構建短語結構樹。

層次分析是利用語言學方法,從句子結構層面進行分析,1、將句子劃分為主謂賓定狀補等成分;2、以詞或片語作為劃分成分的基本單位;3、根據六個成分的搭配排列按層次順序確定句子的格局。一般以樹結構表示結構,我們將其稱為句法分析樹,找到主謂賓主幹,其他成分作為枝葉。

層次分析法面臨問題:乙個詞類可以做多個句法成分,容易造成歧義/多義。

解決方法:chomsky形式文法,根據重寫規則的形式,將形式文法分為4級:0型文法(無約束文法),1型文法(上下文有關文法),2型文法(上下文無關文法),3型文法(正則文法),多級文法關係如下所示:

通過chomsky形式文法作為刻畫語言規律,表示語言的形式文法。從描述能力上,正則文法描述能力弱,上下文有關文法計算複雜度高,上下文無關文法使用較普遍。

句法分析系列詳細文章:完全句法分析;區域性句法關係、依存關係分析

六、語義分析

語義分析包含:詞彙級語義分析、句子距語義分析

詞彙及語義分析:1、語義消歧;--基於貝葉斯分類器的詞義消歧方法、基於最大熵、互資訊的消歧方法;上下文特徵選取概率最大的結果;

2、詞語相似度;通過詞向量計算詞語距離。詞語相似性反映詞語聚合特點,詞語相關性反映詞語組合特點。

句子級語義分析:淺層語義分析和深層語義分析。淺層語義分析主要是語義角色標註

語義分析詳細文章:語義分析

NLP常用術語解析

自然語言處理,後者用英文稱為 natural language processing nlp 包含一系列相對專業的術語,比如 命名實體識別 詞性標註等。剛開始做nlp的時候,往往會搞不清這些術語的具體含義,尤其是看一些會議 期刊的 的時候,英文的表達方式也比較多樣,所以這裡咱就梳理一下一些基本的概念...

NLP常用術語解析

分詞 segment 中英文都存在分詞的問題,不過相對來說,英文單詞與單詞之間本來就有空格進行分割,所以處理起來相對方便。但是中文書寫是沒有分隔符的,所以分詞的問題就比較突出。分詞常用的手段可以是基於字典的最長串匹配,據說可以解決85 的問題,但是歧義分詞很難。另外就是當下主流的統計機器學習的辦法,...

NLP01 NLP基礎 語言模型

本次學習是根據貪心科技的李文哲老師的語言模型課程所整理的相關筆記,並加上自己的理解。內容包括 語言模型的介紹 chain rule 以及馬爾可夫假設 unigram,bigram,ngram 估計語言模型的概率 評估語言模型 perplexity add one 平滑,add k平滑 interpo...