Python自然語言處理第一章

2021-08-15 21:23:57 字數 978 閱讀 3291

nltk即natural language toolkit, 是乙個先進的用於處理自然語言的python程式,和python中的其他庫一樣,我們可以呼叫它來處理各種文字資訊。

nltk功能強大,它不僅為我們學習nlp提供了豐富的語料庫,也為我們處理這些語料庫資訊提供了大量的方法,比如concordance,similar, common_contexts, generate,freqdist

下面一一來介紹這些方法

- concordance

使用方法:text.concordance(」 word 「) 其中text可以用要查詢的文字名代替,word用要搜尋的單詞代替,該方法的功能為在text匹配到word所在的上下文

- similar

使用方法:text.similar(「word」),規則同上,該方法的功能為在text中查詢與word上下文相同的詞

- common_contexts

使用方法:text.common_contexts([「word1」,」word2」,…]),方法返回列表中單詞共用的上下文

- generate

使用方法:text.generate,該方法可生成乙個與text相同風格的文字

- freqdist

使用方法:freqdist(text),該方法可以對text中的所有詞彙進行統計,返回的結果為乙個字典,其中鍵為詞彙名,值為詞彙的個數

我們知道文字中存在者大量相同的詞彙,要區分文字識別符號和詞型別的區別,比如文字text,我們使用len(text),得到的結果是text中詞彙的個數,但是當我們使用len(set(text))時,我們得到的結果肯定是小於等於len(text),set(text)的作用是獲得文字的詞型別,即文字中所有不同的詞彙。

python在處理文字時,通常會將文字當作詞鍊錶,學過資料結構的同學鍊錶的概念應該不會陌生,這是python中經常使用的一種資料結構,當然python也提供了相應的方法用於和字串進行轉換,鍊錶中的內容可以通過索引獲取。

python自然語言處理 第一章

from future import division import nltk nltk.download from nltk.book import 搜尋文字 text1.concordance monstrous 出現在相似上下文中德詞彙 text1.similar monstrous 兩個或兩...

《Python自然語言處理》第一章筆記

import nltk nltk.download 引入book包 from nltk.book import 搜尋文字,顯示指定單詞及其上下文 text1.concordance monstrous 查詢出現在相似上下文中的詞 text1.similar monstrous 查詢兩個或兩個以上詞彙...

python自然語言處理 第一章答案

1.嘗試使用python直譯器作為乙個計算器,輸入表示式,如 12 4 1 12 42.26 個字母可以組成 26 的 10 次方或者 26 10個 10 字母長的字串。也就是 141167095653376l 結尾處的 l 只是表示這是 python 長數字格式 100 個字母長度的字串可能有多少...