自然語言處理基礎（4）資料平滑技術

n元語法模型中，在統計結果中出現了零概率事件反映語言的規律性，即這種現象本來就不該出現，但更多的時候是由於語言模型的訓練文字t的規模以及其分布存在著一定的侷限性和片面性。這就是所謂的「資料稀疏」問題。

所謂「資料平滑技術」，是指為了產生更準確的概率來調整最大似然估計的技術，基本思想就是提高低概率（如零概率），降低低概率，盡量使概率分布趨於平均。

每個例項（分子）的出現次數都加1（或者其他數值），從而所有例項出現次數都不會為0,，為了保證所有例項的概率總和為1，將分母增加例項的種類數；即：

基本思想是：對於任何乙個發生r次的n-gram，都假設它發生r*次，即：

在絕對折扣找你哥，所有的非零mle概率用乙個小的常數折扣，由此得到的概率被均勻分配到未知事件上。

與絕對折扣不同，線性折扣中，所有的非零mle頻率的折扣量與其自身的頻率值成線性關係

這個演算法的思想是：如果測試過程中的乙個例項在訓練語料中未出現，那麼，它就是乙個新事物，也就是說，這是它第一次出現，可以用在訓練語料中看到新例項的概率來代替未出現例項的概率。

這個演算法的思想是：把訓練資料分成兩部分，一部分建立最初的模型，然後另一部分來精煉這個模型，具體公式見《自然語言處理基本理論和方法》

扣留估計演算法有個缺點，就是最初的訓練資料比較少的時候，得到的概率估計是不可靠的

交叉校驗的思想在於，訓練資料的每一部分既作為最初訓練資料，又作為留存資料，對這兩部分資料分別訓練和平滑，然後根據n0相對於n1的比率進行加權，具體公式見《自然語言處理基本理論和方法》

如果兩對詞同時出現0次：c(send the) = c(send thou) = 0，按照之前任何乙個平滑方法都得到兩個概率相等，但是明顯前者要大於後者的。

刪除插值法是這樣做的

可以說，刪除插值和katz回退法都使用低階分布的資訊來確定計數為0的n元語法的概率；不同的是：在katz回退中，只有高階計數為0時才啟用低階計數，而刪除插值中，高階計數和低階計數同時起作用。

自然語言處理基礎學習

自然語言的處理發展以來經歷了多個階段。初期的研究主要注重於自然語言的語法。80年代初期，計算機語言蓬勃發展，形式語言理論趨向成熟，這使得自然語言的處理也求助於形式語言。但由於形式語言語法和語義的分離性，以及自然語言的上下文有關性，導致不能得到廣泛的運用。擴種轉移網路atn是一種多功能自然語言的語法表...

NLP自然語言處理基礎技術工具彙總

目前，有很多開源或開放的自然語言處理工具可以供我們使用，可以方便地解決很多nlp的基礎任務，例如，分詞詞性標註詞幹化命名實體識別名詞短語提取等等。彙總起來方便比較，擇優而用。目錄 1.hanlp 2.spacy 3.fudannlp 4.jieba 結巴 5.snownlp 6.pkuseg...

自然語言處理盤點一下資料平滑演算法

在自然語言處理中，經常要計算單詞序列句子出現的概率估計。我們知道，演算法在訓練時，語料庫不可能包含所有可能出現的序列。因此，為了防止對訓練樣本中未出現的新序列概率估計值為零，人們發明了好多改善估計新序列出現概率的演算法，即資料平滑演算法。最簡單的演算法是laplace法則，思路很簡單，統計測試資...

自然語言處理基礎（4） 資料平滑技術

自然語言處理基礎學習

NLP自然語言處理基礎技術工具 彙總

自然語言處理 盤點一下資料平滑演算法

相關推薦

自然語言處理基礎（4）資料平滑技術

NLP自然語言處理基礎技術工具彙總

自然語言處理盤點一下資料平滑演算法