NLP 學習筆記9 停用詞

2021-10-16 14:53:44 字數 451 閱讀 5888

本文屬於nlp學習筆記系列。

對於nlp的應用,我們通常將停用詞、出現頻率很低的詞過濾掉。

關於停用詞詞典,可以看下之前的:文字預處理與停用詞

這個主要是對業務影響不大,不影響分析,類似於特徵篩選的過程。

要考慮自己的應用場景。

case:一些形容詞通常會過濾掉,但是在情感分析中表達語氣要保留。

自己會做修改。

這塊就是英文的。舉例:went,go,going  時態不同,還有單複數,比較級等等。

涉及技術:

詞幹提取(stemming)是抽取詞的詞幹或詞根形式(不一定能夠表達完整語義)

詞形還原(lemmatization),是把乙個任何形式的語言詞彙還原為一般形式(能表達完整語義)

中文不涉及,所以就不看了。感興趣的可以看看porter stemmer.

nlp 中文停用詞資料集

nlp 中文停用詞資料集 不多說,上資料集 一一 一.1 2345 6789 0 昉 也 一.數 數 日 元 噸 subexp supsub lex 第二一番 一直乙個 一些許多 種有的是 也就是說 末 末啊阿 哎哎呀哎喲唉 俺俺們按按照 吧吧噠把罷了 被本本著比 比方比如鄙人彼 彼此邊別別的 別說...

每日一滴(實踐) NLP之處理停用詞

顧名思義,沒用的單詞,也叫停止詞 即,執行資訊檢索任務或其他自然語言任務時需要過濾掉的詞 例如 to is the 這些詞對句子整體的理解沒多大作用,考慮到處理效率,則需要在處理資料前將這些詞去掉 這也是資料標準化中的一步 即將待處理文字中的停用詞去掉。from nltk.corpus import...

NLP學習筆記 nlp入門介紹

為什麼計算機難以理解人類的自然語言呢?主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙,而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的,而程式語言是結構化的,例如類和成員。自然語言是線性字串,要分析它,需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...