PHP中文分詞擴充套件 SCWS

2021-06-26 06:21:28 字數 861 閱讀 2276

1、scws簡介

scws 是 ****** chinese word segmentation 的首字母縮寫(即:簡易中文分詞系統)。

這是一套基於詞頻詞典的機械式中文分詞引擎,它能將一整段的中文文字基本正確地切分成詞。 詞是中文的最小語素單位,但在書寫時並不像英語會在詞之間用空格分開, 所以如何準確並快速分詞一直是中文分詞的攻關難點。

scws 採用純 c 語言開發,不依賴任何外部庫函式,可直接使用動態鏈結庫嵌入應用程式, 支援的中文編碼包括 gbk、utf-8 等。此外還提供了 php 擴充套件模組, 可在 php 中快速而方便地使用分詞功能。

分詞演算法上並無太多創新成分,採用的是自己採集的詞頻詞典,並輔以一定的專有名稱,人名,地名, 數字年代等規則識別來達到基本分詞,經小範圍測試準確率在 90% ~ 95% 之間, 基本上能滿足一些小型搜尋引擎、關鍵字提取等場合運用。

extension = php_scws.dll

scws.default.charset = gbk

scws.default.fpath = "d:\ceshi\"

3、scws實現分詞的簡單案例

<?php

$sh = scws_open();

scws_set_charset($sh, 'gbk');

$text = "我是乙個中國人,我會c++語言,我也有很多t恤衣服";

scws_send_text($sh, $text);

$top = scws_get_tops($sh, 5);

print_r($top);

?>

php 分詞擴充套件 scws

官方 以 linux freebsd 作業系統為例 1.取得 scws 1.2.2 的 wget 2.解開壓縮包 hightman d1 tar xvjf scws 1.2.2.tar.bz2 3.進入目錄執行配置指令碼和編譯 hightman d1 cd scws 1.2.2 hightman d...

編譯PHP的SCWS中文分詞擴充套件

scws 是 chinese words segmentation 的縮寫,即簡易中文分詞系統。版本號 1.1.3 2 執行 phpize 在php安裝目錄的bin 目錄下 還是在剛剛提到的那個目錄下執行phpize,不要跳出去 3 執行 configure with scws usr local ...

SCWS中文分詞PHP擴充套件詳細安裝說明

因最近寫的一段 需要用到中文分詞,在網上找了一下,發現了scws這個不錯的外掛程式,故根據文件安裝使用,下面記錄下安裝的全過程 系統 centos wget tar xvjf scws 1.2.3.tar.bz2 cd scws 1.2.3 configure prefix usr local sc...