NLP 基礎知識 004 生成模型

2021-10-01 05:51:37 字數 613 閱讀 1127

使用語言模型生成句子(語言模型-生成模型)

生成新的資料-、**、文字...

unigram model

[nlp,i,like,studying,course,yesterday] = vocab

[0.1,0.3,0.2,0.3,0.35,0.05]

不考慮上下文,可能生成下面句子:

i,study,nlp,course,i,yesterday

i like study nlp

bigram model

vocab裡面有6個單詞,所以生成6*6大小矩陣,矩陣引數通過訓練資料得到

nlp i like study course yesterday

nlp 0.001 0.001 0.01 0.1 0.999 0.001

ilike

study

course

yesterday

根據矩陣一行一行進行按照矩陣值概率進行取樣,比較大的概率可能採到 i like studying course yesterday.

上述就是利用語言模型生成句子,前提是有大量的語料庫

NLP基礎知識

1 聲學識別模型 將從麥克風收集來的聲音,進行一些訊號處理,將語音頻號轉化到頻域,從每10毫秒的語音中提出乙個特徵向量,提供給後面的聲學模型。聲學模型負責把音訊分類成不同的音素。接下來就是解碼器,可以得出概率最高一串詞串,最後一步是後處理,就是把單詞組合成容易讀取的文字。2 pomdp框架 3 ap...

NLP基礎知識

英文用nltk,中文用jieba,比較難處理的時候可能要借助正規表示式 2 derivation引申 影響詞性 walking walk walked walk went歸一成go are歸一成be 比如原本是are are,is is 標註後are v be,is v be 比如中文的 的,地,得...

NLP基礎知識 一

中文分詞 word segmentation,ws 指的是將漢字序列切分成詞序列。因為在漢語中,詞是承載語義的最基本的單元。分詞是資訊檢索 文字分類 情感分析等多項中文自然語言處理任務的基礎。詞性標註 part of speech tagging,pos 是給句子中每個詞乙個詞性類別的任務。這裡的詞...