friso開源庫介紹

2021-07-25 23:15:51 字數 2175 閱讀 4901

friso是使用c語言開發的一款高效能中文分詞器,使用流行的mmseg演算法實現。完全基於模組化設計和實現,可以很方便的植入到其他程式中,例如:mysql,php等。同時支援對utf-8/gbk編碼的切分。

sam:關於mmsseg的理解見:

原始碼無需修改就能在各種平台下編譯使用,載入完20萬的詞條,記憶體占用穩定為14.5m。】

1。目前最高版本:friso 1.6.0,同時支援對utf-8/gbk編碼的切分。

2。mmseg四種過濾演算法,分詞準確率達到了98.41%,請參考本演算法的原作:

3。支援自定義詞庫。在dict資料夾下,可以隨便新增/刪除/更改詞庫和詞庫詞條,並且對詞庫進行了分類。

4。簡體/繁體/簡體混合支援, 可以方便的針對簡體,繁體或者簡繁體切分。同時還可以以此實現簡繁體的相互檢索。

5。支援中英/英中混合詞的識別(維護詞庫可以識別任何一種組合)。例如:卡拉ok, 漂亮mm, c語言,ic卡,哆啦a夢。

7。很好的英文支援,英文標點組合詞識別, 例如c++, c#, 電子郵件,**,小數,百分數。

8。(!new)自定義保留標點:你可以自定義保留在切分結果中的標點,這樣可以識別出一些複雜的組合,例如:c++, k&r,code.google.com。

9。(!new)10。支援阿拉伯數字/小數基本單字單位的識別,例如2023年,1.75公尺,5噸,120斤,38.6℃。

11。自動英文圓角/半形,大寫/小寫轉換。

12。同義詞匹配:自動中文/英文同義詞追加. (需要在friso.ini中開啟friso.add_syn選項)。

13。自動中英文停止詞過濾。(需要在friso.ini中開啟friso.clr_stw選項)。

14。多配置支援, 安全的應用於多程序/多執行緒環境。

15。提供friso.ini配置檔案, 可以依據你的需求輕鬆打造適合於你的應用的分詞。

測試環境:2.8ghz/2g/ubuntu

簡單模式:3.8m/秒

複雜模式:1.8m/秒

1.文字1:

歧義和同義詞:研究生命起源,混合詞: 做b超檢查身體,x射線本質是什麼,今天去奇都ktv唱卡拉ok去,哆啦a夢是乙個動漫中的主角,單位和全形: 2023年8月6日開始大學之旅,岳陽今天的氣溫為38.6℃, 也就是101.48℉, 英文數字: bug report [email protected] or visit  we all admire the hacker spirit!特殊數字: ① ⑩ ⑽ ㈩.

friso分詞結果:

2.文字2:

叔叔親了我媽媽也親了我

friso分詞結果:

叔叔 親了 我 媽媽 也 親了 我

win下如何自己編譯安裝friso?

詳情,請參考附件中的friso開發幫助文件。

1.分詞介面樣板:

friso_t friso

;friso_config_t config

;friso_task_t task

;//1.例項化乙個friso分詞例項。

friso

=friso_new

();//2.建立乙個friso分詞配置。

config

=friso_new_config

();//3. 依據給定的friso.ini中快捷初始化friso。if(

friso_init_from_ifile

(friso

,config

,__path__)!=

1)//4.建立乙個分詞任務:

task

=friso_new_task

();//3.設定分詞任務的分詞文字:

friso_set_text

(task

,"要被分詞的文字"

);//4.分詞主程式:

while((

friso_next

(friso

,config

,task ))

!=null

)friso_free_task

(task

);err

:friso_free_config

(config

);friso_free

(friso

);

XCharts開源庫介紹

博物納新 是uwa旨在為開發者推薦新穎 易用 有趣的開源專案,幫助大家在專案研發之餘發現世界上的熱門專案 前沿技術或者令人驚嘆的視覺效果,並探索將其應用到自己專案的可行性。很多時候,我們並不知道自己想要什麼,直到某一天我們遇到了它。圖表 chart 是我們最為廣泛使用的資料視覺化工具。對於簡單的圖表...

訊號處理開源庫SP 介紹

sp signal processing in c 是乙個關於訊號處理與數值計算的開源 c 程式庫,該庫提供了訊號處理與數值計算中常用演算法的 c 實現。sp 中所有演算法都以 c 類模板方法實現,以標頭檔案形式組織而成,所以不需要使用者進行本地編譯,只要將相關的標頭檔案包含在專案中即可使用。h 表...

C 開源資料庫介紹

1 前言 今天給大家介紹乙個記憶體資料庫,純c 寫的。sharphsql。這個資料庫我的意見是 對於大量高併發的情況最好還是不要用這個資料庫。可能有些朋友會問 那你還給大家介紹?呵呵,別慌,我們雖然不能在開發環境運用這個框架,但是我們可以看看他是怎麼一步一步實現了資料庫的。有些地方和oracle的邏...