scws簡單中文分詞

2022-07-20 07:00:08 字數 1076 閱讀 1332

demo如下:

/*

* * 中文分詞

* @param $keyword

* @param $gettop

* @param $limit

* @return array

*/function splitwords($keyword, $gettop = false, $limit = 5): array

$filepath = ini_get('scws.default.fpath');

$handle =scws_new();

$handle->set_charset('utf-8');

//新增分詞字典

$handle->add_dict($filepath . '/dict.utf8.xdb');

//設定分詞規則

$handle->set_rule($filepath . '/rules.utf8.ini');

//是否複式分割

$handle->set_duality(false

);

//忽略標點符號

$handle->set_ignore(true

);

//是否將閒散文字自動以二字分詞法聚合

$handle->set_multi(scws_multi_short);

$handle->send_text($keyword

);

if ($gettop

) else

, $words

);

array_multisort($sortidf, sort_desc, $words

);

$words = array_slice($words, 0, $limit

); }

}return

$words ? $words :;

}

附官網文件:

php+中文分詞scws+sphinx+mysql打造千萬級資料全文搜尋:

SCWS 中文分詞

第一步 準備好pscws4資料 簡體中文 utf 8 第三步 將解壓出來的pscws4類pscws4.class.php 和 xdb r.class.php 放到 thinkphp library vendor pscws下 第四步 在控制器裡面實力類。function get tags title...

SCWS 中文分詞

scws 注意請檢查 php.ini 中的 extension dir 的設定值是否正確,否則請將 extension dir 設為空,再把 php scws.dll 指定為絕對路徑。extension php scws.dll scws.default.charset gbk scws.defau...

scws簡易中文分詞系統

一 簡介 scws 是 chinese words segmentation 的縮寫,即簡易中文分詞系統。這是一套基於詞頻詞典的機械中文分詞引擎,它能將一整段的漢字基本正確的切分成詞。詞是漢語的基本語素單位,而書寫的時候不像英語會在詞之間用空格分開,所以如何準確而又快速的分詞一直是中文分詞的攻關難點...