NLTK之搜尋文字的相關入門函式(二)

2021-07-29 04:00:23 字數 1243 閱讀 5193

·計數函式

1.len()   計算文字長度(以單詞和標點符號為單位)

>>>len(text1)

44764

>>>

2.set() 用於獲取文字詞彙表(去重)

3.sorted()  得到乙個詞彙條目的排序表,這個表以各種標點開始,然後接著是以a開頭的詞彙,大寫排在小寫之前。

>>>sorted(set(text3))

['!',"'",'(',')',',','.','a','abel','abidah'...]

>>>len(set(text3))

2789

>>>

注:儘管書中有44764個識別符號,但只有2789個不同的詞彙或者『詞型別』。詞型別是指乙個詞在乙個文字中獨一無二的出現或者拼寫形式。

計算每個詞的平均使用次數:

>>>from _future_import division

>>>len(text3)/len(set(text3))

16.05 0197203298673

>>>

·自定義函式使用關鍵字def給函式定義乙個簡短的名字,可以在括號中自定義引數。經過def定義後可直接使用。

注:和c語言define不同,不是直接替換的關係。

例子:

>>>def lexical_diversity(text):

... return len(text)/len(sent(text))

...>>>def percentage(count,total):

... return 100*count/total

...>>>lexical_diversity(text3)

16.05 0197203298673

>>>percentage(4,5)

80.0

注:當遇到第一行末尾的冒號時,python直譯器由》變為...

...提示符表示的是python期望的是在後面出現乙個縮排**塊,縮排由自己決定,4空格或者tab,結束縮排**段輸入空行。

*本文中所有**均來自《

python

自然語言處理》(steven bird,ewan klein&edward loper)

c 入門之字元相關入門

先上 1 include iostream 2 include string 3 define byte char 注意,這裡沒有分號,且 只能放在函式外面.4int main 515 cout after loop ends,word is word 16 17 byte a 使用define 定...

c 棧的相關入門題目

棧的經典例題 1.棧排序 題目背景 給出定乙個已經裝有數的棧,要求使用乙個輔助棧,完成原始棧的排序,且除必要單變數外,不用其它任何資料結構 包括陣列 即你可以使用的資料結構只有一種 兩個 原始棧和輔助棧。輸入格式 第一行乙個數n,表示原棧裡面數的個數 第二行n個整數,按照原始棧從棧底到棧頂的順序給出...

linux之搜尋查詢類相關的指令

find 從指定目錄下遞迴地遍歷其各個子目錄,將滿足條件的檔案或者目錄顯示在終端 基本語法 find 搜尋範圍 選項 選項 locate 快速定位檔案路徑。locate指令利用事先建立的系統中的所有檔名稱及路徑的locate資料庫實現快速定位給定的檔案。locate指令無需遍歷整個檔案系統,查詢速度...