Python學習 jieba分詞庫和time模組

專案需要用到分詞，所以找了一天合適的分詞庫，網上推薦最多的是jieba分詞，在linux環境下安裝很方便，輸入命令：

pip install jieba

即可。使用更為方便：

import jieba

data=「這是乙個讓人增長見識的專案」

seg_list=jieba.cut(data,cut_all=false) #目前我只需要使用這個精確模式，還有其他可選模式，可以參考

print '/'.join(seg_list)

結果是：這是/乙個/讓/人/增長/見識/的/專案

我用python自帶的time模組，統計了一下cut這一句命令執行的時間，數量級是微秒。

還有其他的分詞庫，我目前用不到，以後應該會需要進行比較。

上邊已經提到了time模組，我主要對time.time()、time.clock()、timeit做比較

time.time():返回當前的時間戳。所以用來計算執行時間的話只要把前後時間戳相減即可

time.clock():注意，在不同的系統上含義不同。在unix系統上，它返回的是「程序時間」，它是用秒表示的浮點數（時間戳）。而在windows中，第一次呼叫，返回的是程序執行的實際時間。而第二次之後的呼叫是自第一次呼叫以後到現在的執行時間。（實際上是以win32上queryperformancecounter()為基礎，它比毫秒表示更為精確） 1

>>>

import

time

>>>

(time

.time()

,time

.clock()

) 1359147652.31

0.021184

>>>

time

.sleep(1

) >>>

(time

.time()

,time

.clock()

) 1359147653.31

0.02168

可以這樣區分：

import

sys

if sys

.platform

=='win32':

# on windows, the best timer is time.clock

default_timer

=time

.clock

else:

# on most other platforms the best timer is time.time

default_timer

=time

.time

python 中文jieba分詞

import os import jieba from collections import counter def words txt print jieba.cut txt lista jieba.cut txt 返回的結構都是乙個可迭代的 generator，可以使用 for 迴圈來獲得分詞後...

關於jieba分詞 Python

做詞云視覺化的時候，一般都用乙個庫叫jieba，它是用來分詞的。jieba庫在安裝時，會附帶乙個詞庫，這個詞庫中包含了日常漢語的詞語和詞性。在分詞時，jieba庫會先基於詞庫對文字進行匹配，生成文字中的漢字最有可能形成的詞。然後將這些詞組成乙個dag，用動態規劃演算法來查詢最大的概率路徑，盡可能不將...

jieba分詞學習總結

1 jieba.cut 引數1 需要分詞的字串引數2 是否採用全模式，預設是精確模式 seg list jieba.cut 這是乙個測試 cut all false 可以用 join seg list 2 新增自定義詞典 jieba.load userdict filename filename為...

Python學習 jieba分詞庫和time模組

python 中文jieba分詞

關於jieba分詞 Python

jieba分詞學習總結

相關推薦