NLP學習筆記8 拼寫糾錯2

2021-10-16 13:02:53 字數 583 閱讀 5343

本篇屬於nlp學習筆記系列。

通過replace(替換)、add(新增)、delete(刪除)生成編輯距離為1,2 的字串。

好處是:不依賴於詞典的大小,如果詞典不大,也可以不用那個這種方法。

如何過濾呢?

從數學角度來看問題定義: 給定乙個字串s, 我們要找出最有可能成為正確的字串c, 也就是c' = argmaxp(c|s)

這裡argmax算是乙個數學基礎,老師給解釋了。知乎上找個圖:

簡化:c' = argmax p(c|s)     =>    c' = argmax p(s|c) * p(c) / p(s)      這裡就是貝葉斯公式

給定乙個字串s,所以我們把p(s)看做常數,不會變的。所以上面的公式 可認為

c' = argmax  p(s|c) * p(c)

p(s|c) 、p(c)基於已有詞庫統計得到:    p(s|c) 是同級query日誌,所有錯誤的概率。 p(c)是基於單詞統計全部文件出現的概率。

參考:貪心科技nlp

NLP學習筆記 nlp入門介紹

為什麼計算機難以理解人類的自然語言呢?主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙,而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的,而程式語言是結構化的,例如類和成員。自然語言是線性字串,要分析它,需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...

NLP學習筆記1 2

開始學習nlp的第乙個模組jieba import nltk setence hello,world token nltk.word tokenize setence list token hello world import jieba 模糊模式 seg list list jieba.cut 2...

NLP學習筆記 一

可瀏覽 從研究現狀來看,自然語言理解和處理的理論體系尚未真正建立,技術方法仍然十分初步,所以對於什麼是nlp沒有乙個標準的定義,此下幾點為本人收集的關於nlp的概念界定 wiki中的定義 自然語言處理 英語 natural language processing,縮寫作 nlp 是人工智慧和語言學領...