python呼叫hanlp分詞包手記

2021-09-19 20:01:10 字數 2010 閱讀 1835

python呼叫hanlp分詞包手記

hanlp作為一款重要的分詞工具,本月初的時候看到大快搜尋發布了hanlp的1.7版本,新增了文字聚類、流水線分詞等功能。關於hanlp1.7版本的新功能,後面有使用的到時候在給大家分享。本篇分享乙個在python裡呼叫hanlp分詞包的過程文章,供需要的朋友參考學習交流!以下為文章內容:

1.在python下安裝pyhanlp

sudo pip install pyhanlp (

詳見pyhanlp官方文件)

2.pyhanlp的一些使用方法

(1)hanlp.segment的使用

from pyhanlp import *

print hanlp.segment("今天開心了嗎?")

#輸出:[今天/t, 開心/a, 了/ule, 嗎/y, ?/w]

ï¼2ï¼其它api函式的使用。

(pyhanlp裡已經含有以下這些功能了,可以直接呼叫) 1

- # api列表 2

customdictionary= lazyloadingjclass(

'com.hankcs.hanlp.dictionary.customdictionary')

3 hanlp = safejclass(

'com.hankcs.hanlp.hanlp')

4 hanlp.config = jclass(

'com.hankcs.hanlp.hanlp$config')

5perceptronlexicalanalyzer= safejclass(

'com.hankcs.hanlp.model.perceptron.perceptronlexicalanalyzer')

6 doublearraytriesegment = safejclass(

'com.hankcs.hanlp.seg.other.doublearraytriesegment')

7ahocorasickdoublearraytrie = safejclass(

'com.hankcs.hanlp.collection.ahocorasick.ahocorasickdoublearraytrie')

8ioutil = safejclass(

'com.hankcs.hanlp.corpus.io.ioutil')

9traditionalchinesetokenizer=safejclass(

'com.hankcs.hanlp.tokenizer.traditionalchinesetokenizer')

呼叫方法

analyzer=perceptronlexicalanalyzer()

a =analyzer.analyze("今天開心了嗎?")

print a

3.其它更多的功能的實現。

â ã比如繁體分詞,自動生成摘要這些hanlp能實現的,但不在以上api函式裡面的,我們可以通過以下方法。

â¡ã首先要在「../pyhanlp/init.py」pycharm檔案下通過jclass語句引入更深類路徑。比如(我引入的是中文繁體分詞這個api函式)

â¢ãtraditionalchinesetokenizer=safejclass('com.hankcs.hanlp.tokenizer.traditionalchinesetokenizer')

â£ã然後就可以直接呼叫了,真的超級棒。

â¤ãprint traditionalchinesetokenizer.segment('三華裔獲得傑出青年獎『)

â¥ã#輸出:[三/m, 華裔/n, 獲得/v, 傑出青年/nz, 獎/n]

â¦ã---------------------

HanLP中文分詞 字典分詞

hanlp是漢語言處理的乙個重要利器。對漢語言進行處理,首先的步驟是將漢語進行分詞。漢語進行分詞的乙個比較 low 但有用的方法是字典拆分。字典拆分使用啟發式演算法 雙向文字匹配演算法,結合字典,對漢語語句和段落進行拆分的方法。from sklearn.externals import joblib...

Viterbi分詞詳解 hanlp

1.根據詞庫,生成所有所有字可能組成的詞 詞網 例如 當下雨天地面積水分外嚴重 0 1 當,當下 2 下,下雨,下雨天 3 雨,雨天 4 天,天地 5 地,地面 6 面,面積 7 積,積水 8 水,水分 9 分,分外 10 外 11 嚴,嚴重 12 重 13 前後空為起始和末尾標誌 2.通過遍歷上述...

hanlp中的N最短路徑分詞

n 最短路徑是中科院分詞工具nlpir進行分詞用到的乙個重要演算法,張華平 劉群老師在 基於n 最短路徑方法的中文詞語粗分模型 中做了比較詳細的介紹。該演算法演算法基本思想很簡單,就是給定一待處理字串,根據詞典,找出詞典中所有可能的詞,構造出字串的乙個有向無環圖,算出從開始到結束所有路徑中最短的前n...