NLP基礎知識

2021-10-09 13:08:57 字數 1471 閱讀 9016

英文用nltk,中文用jieba,比較難處理的時候可能要借助正規表示式

2、derivation引申:影響詞性

walking->walk

walked->walk

went歸一成go

are歸一成be

比如原本是are–>are,is–>is

標註後are(v)–>be,is(v)–>be

比如中文的:的,地,得

比如英文的:the,this

資料s1=』this is a good book』

s2=』this is a awesome book』

s3=』this is a bad book』

s4=』this is a terrible book』

把資料變成向量

統計上文出現過的所有單詞:this、is 、a 、good 、awesome、 bad、 terrible、 book,然後每個樣本的詞向量就是這個單詞是否出現過

如:s1=[1 1 1 1 0 0 0 1]

訓練然後再用ml方法訓練

weyou

hework

are103

0111

0201

1010

100這裡一共表示了三個樣本,然後我們提取出對應的詞向量,然後用一些求兩個向量的相似度的方法來計算文字的相似度,比如余弦相似度

tf-idf概念

tf-idf例項

⼀個⽂檔有100個單詞,其中單詞baby出現了3次;且一共有10m的⽂檔, baby出現在其中的1000個⽂檔中。

t f(

baby

)=3100

=0.03id

f(ba

by)=

ln(10000000

1000)=

4tf−

idf(

baby

)=tf

(bab

y)∗i

df(b

aby)

=0.03∗4

=0.12

tf(baby)==0.03\\ idf(baby)=ln()=4\\ tf-idf(baby)=tf(baby)*idf(baby)=0.03*4=0.12

tf(bab

y)=1

003​

=0.0

3idf

(bab

y)=l

n(10

0010

0000

00​)

=4tf

−idf

(bab

y)=t

f(ba

by)∗

idf(

baby

)=0.

03∗4

=0.1

2

NLP基礎知識

1 聲學識別模型 將從麥克風收集來的聲音,進行一些訊號處理,將語音頻號轉化到頻域,從每10毫秒的語音中提出乙個特徵向量,提供給後面的聲學模型。聲學模型負責把音訊分類成不同的音素。接下來就是解碼器,可以得出概率最高一串詞串,最後一步是後處理,就是把單詞組合成容易讀取的文字。2 pomdp框架 3 ap...

NLP基礎知識 一

中文分詞 word segmentation,ws 指的是將漢字序列切分成詞序列。因為在漢語中,詞是承載語義的最基本的單元。分詞是資訊檢索 文字分類 情感分析等多項中文自然語言處理任務的基礎。詞性標註 part of speech tagging,pos 是給句子中每個詞乙個詞性類別的任務。這裡的詞...

NLP學習路徑(一) NLP基礎知識

1 基本術語 1 分詞 分詞常用手段 基於字典的最長串匹配,但歧義分詞很難。比如 美國 會 通過法案。美 國會 通過法案。2 詞性標註 詞性 動詞 名詞 形容詞等 目的 表徵詞的一種隱藏狀態,隱藏狀態構成的轉移就構成了狀態轉移序列。比如 我 r愛 v中國 ns。其中,ns代表名詞,v是動詞,ns,v...