Python學習 jieba分詞庫和time模組

2021-07-22 13:43:45 字數 1498 閱讀 6559

專案需要用到分詞,所以找了一天合適的分詞庫,網上推薦最多的是jieba分詞,在linux環境下安裝很方便,輸入命令:

pip install jieba 

即可。使用更為方便:

import jieba

data=「這是乙個讓人增長見識的專案」

seg_list=jieba.cut(data,cut_all=false)   #目前我只需要使用這個精確模式,還有其他可選模式,可以參考

print '/'.join(seg_list)

結果是:這是/乙個/讓/人/增長/見識/的/專案

我用python自帶的time模組,統計了一下cut這一句命令執行的時間,數量級是微秒。

還有其他的分詞庫,我目前用不到,以後應該會需要進行比較。

上邊已經提到了time模組,我主要對time.time()、time.clock()、timeit做比較

time.time():返回當前的時間戳。所以用來計算執行時間的話只要把前後時間戳相減即可

time.clock():注意,在不同的系統上含義不同。在unix系統上,它返回的是「程序時間」,它是用秒表示的浮點數(時間戳)。而在windows中,第一次呼叫,返回的是程序執行的實際時間。而第二次之後的呼叫是自第一次呼叫以後到現在的執行時間。(實際上是以win32上queryperformancecounter()為基礎,它比毫秒表示更為精確) 1

2

3

4

5

6

>>>

import

time

>>>

print

(time

.time()

,time

.clock()

) 1359147652.31

0.021184

>>>

time

.sleep(1

) >>>

print

(time

.time()

,time

.clock()

) 1359147653.31

0.02168

可以這樣區分:

1

2

3

4

5

6

7

8

import

sys

if sys

.platform

=='win32':

# on windows, the best timer is time.clock

default_timer

=time

.clock

else:

# on most other platforms the best timer is time.time

default_timer

=time

.time

python 中文jieba分詞

import os import jieba from collections import counter def words txt print jieba.cut txt lista jieba.cut txt 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後...

關於jieba分詞 Python

做詞云視覺化的時候,一般都用乙個庫叫jieba,它是用來分詞的。jieba庫在安裝時,會附帶乙個詞庫,這個詞庫中包含了日常漢語的詞語和詞性。在分詞時,jieba庫會先基於詞庫對文字進行匹配,生成文字中的漢字最有可能形成的詞。然後將這些詞組成乙個dag,用動態規劃演算法來查詢最大的概率路徑,盡可能不將...

jieba分詞學習總結

1 jieba.cut 引數1 需要分詞的字串 引數2 是否採用全模式,預設是精確模式 seg list jieba.cut 這是乙個測試 cut all false 可以用 join seg list 2 新增自定義詞典 jieba.load userdict filename filename為...