結巴中文分詞之PHP擴充套件

2021-09-17 01:28:12 字數 1163 閱讀 3043

array jieba(string $text, bool use_extract = false, long extract_limit = 10)
git clone 

cd phpjieba/cjieba

make

cd ..

phpize

./configure

make

make install

extension=jieba.so

jieba.enable=1

jieba.dict_path=/users/xingqiba/data/softs/jz/cjieba/dict #指向jieba庫dict目錄

$result = jieba('小明碩士畢業於中國科學院計算所,後在日本京都大學深造');

echo implode('/', $result) . php_eol;

//小明/碩士/畢業/於/中國/科學/學院/科學院/中國科學院/計算/計算所/,/後/在/日本/京都/大學/京都大學/深造

$result = jieba('小明碩士畢業於中國科學院計算所,後在日本京都大學深造', true, 6);

echo implode('/', $result) . php_eol;

//計算所/小明/京都大學/深造/碩士/中國科學院

$result = jieba('他心理健康');

echo implode('/', $result) . php_eol;

//他/心理/健康/心理健康

$result = jieba('this is a demo, my name is jony', true, 10);

echo implode('/', $result) . php_eol;

//demo/jony

$result = jieba('this is a demo, my name is jony');

echo implode('/', $result) . php_eol;

//this/ /is/ /a/ /demo/,/ /my/ /name/ /is/ /jony

歡迎您加入我們的專屬qq討論群組① 233415606 ② 233415756

結巴中文分詞

人工智慧領域文字分類中最基本的就是分詞,分詞中最基礎的莫過於結巴分詞。分詞,顧名思義就是把一句話劃分成若干的詞語,只不過如今我們是讓電腦自動進行分詞。結巴中文分詞支援的三種模式分別為 1.全模式 把句子中所有成詞的詞語都掃瞄出來,速度非常快,但不能消除歧義。分詞結果 jieba.cut 文字名稱,c...

結巴中文分詞使用學習(python)

精確模式 預設 試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,該方法適合用於搜尋引擎構建倒排索引的分詞,粒度比較細。注意 jieba.cut以及jieba.cut for sear...

結巴中文分詞安裝與使用

1 安裝 pip install jieba 2 示例 encoding utf 8 import jieba seg list jieba.cut 我來到北京清華大學 cut all true print full mode join seg list 輸出 我 來到 北京 清華 清華大學 華大 ...