jieba分詞運用例項

2021-10-02 09:45:44 字數 1008 閱讀 1733

import os

import jieba.analyse as analyse

import time

#這裡是乙個計時功能的實現

begin=time.time(

)#這裡是網路**所在的父目錄

fatherdir=

"d:/project44/網路**"

#獲得所有書名組成的list,乙個個打太麻煩了

booklist =os.listdir(fatherdir)

resultfile=

open(,

"w")

kwordkind=

('vd'

,'vf'

,'vx'

,'vi'

,'vl'

,'vg'

,'ad'

,'ag'

,'al'

)for book in booklist:

bookcontent=

open

(fatherdir+

"/"+book,

"r",encoding=

"utf-8"

).read(

) kwordstr =

",".join(analyse.extract_tags(bookcontent,topk=

150,allowpos=()

))#這裡的**是最後一版的,抓得最多

resultfile.write(book+

+"\n"

+kwordstr+

'\n\n'

)end=time.time(

)span=

round

(end-begin,2)

resultfile.write(

"共用時"

+str

(span)

+"秒"

+"\n"

)resultfile.close(

)

如何運用jieba庫分詞

使用jieba庫分詞 一.什麼是jieba庫 1.jieba庫概述 jieba是優秀的中文分詞第三方庫,中文文字需要通過分詞獲得單個詞語。2.jieba庫的使用 jieba庫支援3種分詞模式 通過中文詞庫的方式識別 精確模式 把文字精確的切分開,不存在冗餘單詞 全模式 把文字所有可能的詞語都描述出來...

jieba 利用jieba分詞

目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...

jieba分詞原理

關於jieba分詞的原理,在平時做文字方面的演算法時沒有仔細研究過,昨晚在網上看了一篇部落格,寫的很全面很詳細,其中有些深入的部分還並沒有完全看懂。jieba分詞系統介紹 涉及演算法 基於字首詞典實現詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用動態規劃查詢最大概率路徑,找...