NLP之統計語言模型 N元模型(N Gram)

2021-10-04 05:18:55 字數 444 閱讀 9070

總的來說,語言模型可以分為兩種,分別是規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位的內在統計規律,廣泛應用於機器翻譯、語音識別、印刷體和手寫體識別、拼寫糾錯、漢字輸入和文獻查詢。

n-gram假設:第n個詞的出現只與前面的n-1個詞相關,而與其他任何詞都不相關,整句的概率是各個詞出現概率的乘積。這種可以結合上下文方法其實就是馬爾可夫假設,結合上下文資訊,**將要出現的那個詞,在某種程度上給出乙個合理的**。所以n-gram也可稱為(n-1)階馬爾可夫模型。

每個·w對應於語料中不重複的詞,i為需要**的句子長度,n就是選擇的n元模型的n的大小。理論上來說,n的數量越大,得到的估計概率越準確,模型的效果就會越好。但n增加,對應的引數也會增加。

所以,經常使用的n元模型是二元、三元的。

NLP(四) 語言模型

這是一系列自然語言處理的介紹,本文不會涉及公式推導,主要是一些演算法思想的隨筆記錄。適用人群 自然語言處理初學者,轉ai的開發人員。程式語言 python 參考書籍 數學之美 參考教程 機器讀心術之自然語言處理 對於像漢語,英語這樣的大型自然語言系統,難以構造精確的文法 不符合人類學習語言的習慣 有...

CS224N 語言模型介紹

語言模型實現 語言模型是指根據給定序列 下乙個單詞的任務,其形式化表達為 給定單詞序列x 1 x 2 x t 然後 單詞x t 1 的概率分布 語言模型的另一種定義是給給定文字序列分配概率 這個概率代表了該文字序列出現的可能性大小 例如,給定一段文字x 1 x 2 x t 那麼這段文字出現的概率為 ...

統計語言模型

語言模型就是用來計算乙個句子的概率的模型,即p w1,w2,wk 利用語言模型,可以確定哪個詞序列的可能性更大,或者給定若干個詞,可以 下乙個最可能出現的詞語。舉個音字轉換的例子來說,輸入拼音串為nixianzaiganshenme,對應的輸出可以有多種形式,如你現在幹什麼 你西安再趕什麼 等等,那...