NLTK在去停用詞 分詞 分句以及詞性標註的使用

2021-07-28 04:40:43 字數 1199 閱讀 6530

因為實習的緣故,所以有機會接觸到了自然語言處理的一些方面。

這裡主要總結一下在python環境下進行自然語言處理的相關包和可能會出現的相關錯誤,目前接觸的都比較

low,

但是還是想要記錄下來。

nltk是

python

下處理語言的主要工具包,可以實現去除停用詞、詞性標註以及分詞和分句等。

安裝nltk,我寫

python

一般使用的是整合環境

epdpip install nltk

安裝。

》pip install nltk   #安裝

nltk

》nltk.download()  #彈出乙個選擇框,可以按照自己需要的語義或者是功能進行安裝

一般要實現分詞,分句,以及詞性標註和去除停用詞的功能時,需要安裝stopwords,punkt以及

當出現lookuperror時一般就是由於缺少相關模組所導致的

就是沒有安裝stopwords所導致的,可以手動安裝,也可以

》nltk.download(『stopwords』)

如果出現

則是需要安裝punkt,這個模組主要負責的是分詞功能。同

stopwords

一樣有兩種方式安裝。

同理當報出

lookuperror

resource ***/maxent_treebank_pos_tagger/

去除停用詞,分詞以及詞性標註的呼叫方法

from nltk.corpus import stopwords

import nltk

disease_list = nltk.word_tokenize(text)

#去除停用詞

filtered = [w for w in disease_list if(w not in stopwords.words('english')]

#進行詞性分析,去掉動詞、助詞等

rfiltered =nltk.pos_tag(filtered)

rfiltered以列表的形式進行返回,列表元素以(詞,詞性)元組的形式存在

中文分詞與停用詞的作用

首先什麼是中文分詞stop word?英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子i am a student,用中文則為 我是乙個學生 計算機可以很簡單通過空格知道student是乙個單詞,但是不能很容易明白 學 生 兩個字合...

貝葉斯分類 分詞例項 停用詞

import pandas as pd data origin pd.read csv data.csv encoding gbk 開啟停用詞檔案 with open stopwords.txt r encoding utf 8 as fp stop words fp.readlines 返回列表 ...

02 NLTK 分句 分詞 詞幹提取 詞型還原

nltk 分句 分詞 詞幹提取 詞型還原 print 案例1 分句 分詞 import nltk.tokenize as tk doc are you curious about tokenization?let s see how it works we need to analyze a cou...