自然語言處理基礎(4) 資料平滑技術

2021-08-02 20:27:54 字數 1080 閱讀 7705

n元語法模型中,在統計結果中出現了零概率事件反映語言的規律性,即這種現象本來就不該出現,但更多的時候是由於語言模型的訓練文字t的規模以及其分布存在著一定的侷限性和片面性。這就是所謂的「資料稀疏」問題。

所謂「資料平滑技術」,是指為了產生更準確的概率來調整最大似然估計的技術,基本思想就是提高低概率(如零概率),降低低概率,盡量使概率分布趨於平均。

每個例項(分子)的出現次數都加1(或者其他數值),從而所有例項出現次數都不會為0,,為了保證所有例項的概率總和為1,將分母增加例項的種類數;即:

基本思想是:對於任何乙個發生r次的n-gram,都假設它發生r*次,即:

在絕對折扣找你哥,所有的非零mle概率用乙個小的常數折扣,由此得到的概率被均勻分配到未知事件上。

與絕對折扣不同,線性折扣中,所有的非零mle頻率的折扣量與其自身的頻率值成線性關係

這個演算法的思想是:如果測試過程中的乙個例項在訓練語料中未出現,那麼,它就是乙個新事物,也就是說,這是它第一次出現,可以用在訓練語料中看到新例項的概率來代替未出現例項的概率。

這個演算法的思想是:把訓練資料分成兩部分,一部分建立最初的模型,然後另一部分來精煉這個模型,具體公式見《自然語言處理基本理論和方法》

扣留估計演算法有個缺點,就是最初的訓練資料比較少的時候,得到的概率估計是不可靠的

交叉校驗的思想在於,訓練資料的每一部分既作為最初訓練資料,又作為留存資料,對這兩部分資料分別訓練和平滑,然後根據n0相對於n1的比率進行加權,具體公式見《自然語言處理基本理論和方法》

如果兩對詞同時出現0次:c(send the) = c(send thou) = 0,按照之前任何乙個平滑方法都得到兩個概率相等,但是明顯前者要大於後者的。

刪除插值法是這樣做的

可以說,刪除插值和katz回退法都使用低階分布的資訊來確定計數為0的n元語法的概率;不同的是:在katz回退中,只有高階計數為0時才啟用低階計數,而刪除插值中,高階計數和低階計數同時起作用。

自然語言處理基礎學習

自然語言的處理發展以來經歷了多個階段。初期的研究主要注重於自然語言的語法。80年代初期,計算機語言蓬勃發展,形式語言理論趨向成熟,這使得自然語言的處理也求助於形式語言。但由於形式語言語法和語義的分離性,以及自然語言的上下文有關性,導致不能得到廣泛的運用。擴種轉移網路atn是一種多功能自然語言的語法表...

NLP自然語言處理基礎技術工具 彙總

目前,有很多開源或開放的自然語言處理工具可以供我們使用,可以方便地解決很多nlp的基礎任務,例如,分詞 詞性標註 詞幹化 命名實體識別 名詞短語提取等等。彙總起來方便比較,擇優而用。目錄 1.hanlp 2.spacy 3.fudannlp 4.jieba 結巴 5.snownlp 6.pkuseg...

自然語言處理 盤點一下資料平滑演算法

在自然語言處理中,經常要計算單詞序列 句子 出現的概率估計。我們知道,演算法在訓練時,語料庫不可能包含所有可能出現的序列。因此,為了防止對訓練樣本中未出現的新序列概率估計值為零,人們發明了好多改善估計新序列出現概率的演算法,即資料平滑演算法。最簡單的演算法是laplace法則,思路很簡單,統計測試資...