tf系列4 Bi LSTM中文分詞

2021-08-14 05:10:19 字數 1076 閱讀 1296

該專案github:

根據該專案所述,這個中文工具包的特點有如下幾點:

如該專案所述,作者使用了雙向 lstm 來構建整個模型,這也許是作者對分詞效能非常有信心的原因。在中文分詞上,基於神經網路的方法,往往使用「字向量 + 雙向 lstm + crf」模型,利用神經網路來學習特徵,將傳統 crf 中的人工特徵工程量將到最低。

安裝

pip install foolnltk

1、分詞

import fool

text

="乙個傻子在北京"

print

(fool

.cut

(text

))

# ['乙個', '傻子', '在', '北京']

2、載入使用者自定義詞典

詞典格式格式如下,詞的權重越高,詞的長度越長就越越可能出現, 權重值請大於 1

難受香菇

10什麼鬼

10分詞工具

10北京

10北京天安門

10

載入詞典

import fool

fool.load_userdict(path)

text='測試'.cut()

刪除詞典

fool.delete_userdict()

3. 詞性標註

import

fool

text

="乙個傻子在北京"

print

(fool

.pos_cut

(text

))

4、實體識別

import fool

text='乙個傻子在北京'

words,ners=fool.analysis(text)

print(ners)

#(5,8,'loaction','北京')

NLP系列 中文分詞(基於詞典)

詞是最小的能夠獨立活動的有意義的語言成分,一般分詞是自然語言處理的第一項核心技術。英文中每個句子都將詞用空格或標點符號分隔開來,而在中文中很難對詞的邊界進行界定,難以將詞劃分出來。在漢語中,雖然是以字為最小單位,但是一篇文章的語義表達卻仍然是以詞來劃分的。因此處理中文文字時,需要進行分詞處理,將句子...

solr mmseg4j 中文分詞

3.在tomcat目錄下新建solr home目錄,複製e apache apache solr 1.4.1 example solr下的bin conf目錄到 solr home,並新建 data資料夾,複製sogou dic utf8下的words.dic到data資料夾下。4.e tomcat...

Elasticsearch(4)配置中文分詞器

安裝擴充套件本地詞庫 方式一 方式二 github將解壓後的 ik 資料夾,放入 elasticsearch 資料夾下的plugins ik目錄下。啟動 elasticsearch 後,看到下圖,表示啟動成功。在plugins ik config custom目錄下新增檔案hotwords.dic。...