scws中文分詞元件

2021-09-26 04:14:11 字數 906 閱讀 2134

<?php

//使用類方法分詞 

$so = scws_new();

$so->set_charset('gbk');

// 這裡沒有呼叫 set_dict 和 set_rule 系統會自動試呼叫 ini 中指定路徑下的詞典和規則檔案

$so->send_text("我是乙個中國人,我會c++語言,我也有很多t恤衣服");

while ($tmp = $so->get_result())

$so->close();

//使用函式提取高頻詞

$sh = scws_open();

scws_set_charset($sh, 'gbk');

scws_set_dict($sh, '/path/to/dict.xdb');

scws_set_rule($sh, '/path/to/rules.ini');

$text = "我是乙個中國人,我會c++語言,我也有很多t恤衣服";

scws_send_text($sh, $text);

$top = scws_get_tops($sh, 5);

print_r($top);

?>

更多參考hightman論壇

<?php

require("splitword.php");//包含分詞類檔案

$spword =new splitword();//建立類物件

$str="某某字串";

$words =$spword->splitrmm($str);//呼叫類方法

$spword = iconv( "gbk", "utf-8//ignore", $spword );

$splitword->clear( );

中文分詞元件

cmd執行命令 mecab d mecab chinesedic binary wakati wiki.zh.text.jian o wiki.zh.text.jian.seg b 10000000 其中,wiki.zh.text.jian是乙個中文資料集,wiki.zh.text.jian.seg...

SCWS 中文分詞

第一步 準備好pscws4資料 簡體中文 utf 8 第三步 將解壓出來的pscws4類pscws4.class.php 和 xdb r.class.php 放到 thinkphp library vendor pscws下 第四步 在控制器裡面實力類。function get tags title...

SCWS 中文分詞

scws 注意請檢查 php.ini 中的 extension dir 的設定值是否正確,否則請將 extension dir 設為空,再把 php scws.dll 指定為絕對路徑。extension php scws.dll scws.default.charset gbk scws.defau...