import os
import jieba.analyse as analyse
import time
#這裡是乙個計時功能的實現
begin=time.time(
)#這裡是網路**所在的父目錄
fatherdir=
"d:/project44/網路**"
#獲得所有書名組成的list,乙個個打太麻煩了
booklist =os.listdir(fatherdir)
resultfile=
open(,
"w")
kwordkind=
('vd'
,'vf'
,'vx'
,'vi'
,'vl'
,'vg'
,'ad'
,'ag'
,'al'
)for book in booklist:
bookcontent=
open
(fatherdir+
"/"+book,
"r",encoding=
"utf-8"
).read(
) kwordstr =
",".join(analyse.extract_tags(bookcontent,topk=
150,allowpos=()
))#這裡的**是最後一版的,抓得最多
resultfile.write(book+
+"\n"
+kwordstr+
'\n\n'
)end=time.time(
)span=
round
(end-begin,2)
resultfile.write(
"共用時"
+str
(span)
+"秒"
+"\n"
)resultfile.close(
)
如何運用jieba庫分詞
使用jieba庫分詞 一.什麼是jieba庫 1.jieba庫概述 jieba是優秀的中文分詞第三方庫,中文文字需要通過分詞獲得單個詞語。2.jieba庫的使用 jieba庫支援3種分詞模式 通過中文詞庫的方式識別 精確模式 把文字精確的切分開,不存在冗餘單詞 全模式 把文字所有可能的詞語都描述出來...
jieba 利用jieba分詞
目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...
jieba分詞原理
關於jieba分詞的原理,在平時做文字方面的演算法時沒有仔細研究過,昨晚在網上看了一篇部落格,寫的很全面很詳細,其中有些深入的部分還並沒有完全看懂。jieba分詞系統介紹 涉及演算法 基於字首詞典實現詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用動態規劃查詢最大概率路徑,找...