每日一滴(實踐) NLP之處理停用詞

2021-10-02 03:39:59 字數 731 閱讀 7310

顧名思義,沒用的單詞,也叫停止詞;即,執行資訊檢索任務或其他自然語言任務時需要過濾掉的詞(例如:『to』,『is』,『the』);這些詞對句子整體的理解沒多大作用,考慮到處理效率,則需要在處理資料前將這些詞去掉(這也是資料標準化中的一步)。

即將待處理文字中的停用詞去掉。

**:

from nltk.corpus import stopwords

stops=set(stopwords.words('english'))

words=['you are a boy','to']

print([word for word in words

if word not in stops])

解釋**:

stopwords()是乙個語料庫,裡面是各種語言的停用詞;

words()是例項stopwords()的乙個函式,引數為fileid;提供實參為』english』則指的是 在英語檔案中存的所有停止詞;沒有引數則指所有語言的停用詞。

set()函式是建立乙個無序、不重複的元素集(性質和集合類似);

1、stopwords.words(『english』)將英語停用詞提供給set()函式

set()函式拿這些停用詞建立集合,並返回乙個集合給變數stops

2、[word for word in words if word not in stops])

是將在words中的元素和不在stops中的元素放在乙個元組中。

駱駝的最後一滴眼淚

你穿羊絨衫嗎?你知道什麼叫生態難民嗎?你可見過駱駝的最後一滴眼淚?今天,我只想讓大家知道一些事情,能在看完後做一些力所能及的事情!在北京大學的百年大講堂,我有幸參觀了乙個攝影展,主題叫 駱駝的眼淚 已經寫不出來當時看的時候和看完後的複雜心情,一幅幅都是乙個退休老工人近 年自費走遍內蒙古全境以及青海 ...

男人的一滴淚

編輯整理自網路。有個女孩非常希望能看見自己的男朋友的眼淚,那個堅強的男人從未在她面前流過淚,日子一年年的過去,他們的幸福讓女孩愈加好奇男人的眼淚,他究竟什麼時候才會哭一次呢?傻瓜,別試著想看見我的淚,真有那一天,那麼肯定是有非常悲痛的事情發生。他懂她的小心眼,卻又忍不住笑她的純真。女孩的好奇得不到滿...

一點一滴(五)

架構 1 什麼是架構?架構就是對系統中的實體以及實體之間的關係所進行的抽象描述,是一系列的決策。架構是結構和願景。系統架構是概念的體現,是對物 資訊的功能與形式元素之間的對應情況所做的分配,是對元素之間的關係以及元素同周邊環境之間的關係所做的定義。做好架構是個複雜的任務,也是個很大的話題,本篇就不做...