文字中詞語的頻率分布

2021-09-19 07:03:02 字數 562 閱讀 1934

nltk為頻率分布提供了內建的支援。

1,使用freqdist可以生成頻率字典。

>>> fdist1 = freqdist(text1)

>>> fdist1

freqdist()

生成的fdist1,記錄了text1中各個單詞的出現次數,例如「,」出現了18713次,「the」出現了13721次,「.」出現了6862次。

fdist1已經按照單詞的出現次數進行了排序。

2,fdist1.keys()可以獲取到所有的key的集合。

3,list(fdist1.keys())可以將集合轉換為列表。

4,轉化為列表之後,就可以使用[index]的方式來訪問列表了。但此時的list已經丟失了各個詞語出現頻率的排序資訊。

5,通過以下方式來繪製頻率曲線圖。

從海量文字中統計出前k個頻率最高的詞語

現有如下題目 有乙個海量文字,儲存的是漢語詞語,要求從中找出前k個出現頻率最高的詞語,寫出最優演算法,兼顧時間和空間複雜度。思路分析 熟悉搜尋引擎的程式設計師,應該不是難題。用傳統的hashmap是無法解決的,因為資料量非常龐大的時候,空間複雜度會導致程式執行時,頻繁執行minorgc和majorg...

NLTK 頻率分布中定義的函式

例子 fdist freqdist sample 建立包含給定樣本的頻率分布 fdist.inc sample 增加樣本 fdist.freq 計數給定樣本出現的次數 fdish.n 樣本總數 for sample in fish 以頻率遞減的順序遍歷樣本 fdish.max 數值最大的樣本 fdi...

python 計算文字中每個單詞的出現頻率

計算文字中每個單詞的使用頻率,並從高到低進行排序 from string import punctuation 開啟資料匯入 text open text.txt def count text dic dict 建立新字典 for line in text word line.split 將字串分割...