基於正向最大化詞表中文分詞法。

2021-04-01 18:47:30 字數 481 閱讀 3313

以前做知識管理系統的時候,由於需要建立全文檢索和統計詞頻,需要對中文文字進行分詞。對於中文分詞,

國內做到好的應該是中科院自然研究所,但是相對比較複雜,我看了幾次沒有看明白. :)  ,由於平常我們的知識系統

對分詞的要求沒有這麼高,所以 就選擇了最大化的詞表分詞法.  詞表選擇的是人民**97版的詞表.

實際效果可以達到90%以上,基本可以滿足需要。支援 lucene.net分詞,詞表是啟動時一次性載入;

具體**如下:

public sealed class ltwordtokenizer : tokenizer

public void wordsegment(string sentence)

}if(!bfind)

}} 

}public override token next()

{  if(intindex下次可以在分詞的時候更改一下,不必先分好儲存到arraylist,動態速度更好。

最大化 基於最大化互資訊的學習目標

這篇文章主要介紹一種自監督的學習方法,即互資訊最大化。到目前為止有很多 來最大化互資訊從而得到一個更好的結果,本文選擇的兩篇 為發表在iclr 2020上的 a mutual information maximization perspective of language representatio...

視窗最大化

1 jframe 視窗最大化,在建構函式中 新增如下 this.setextendedstate jframe.maximized both 2 jinternalframe視窗最大化,需要在新增到jframe的desktoppane之後設定,如下 bookframe.setmaximum true...

最大化 如何將RPA的價值最大化?

自動化技術讓企業能夠更有效的利用資源,減少由於人為失誤而造成的風險損失。隨著科技的進步,實現自動化的途徑變得更加多樣化。據forrester 自動化技術將在2019年成為引領數字化轉型的前沿技術,幫助重塑商業模式和客戶體驗。但是市面上有那麼多提供自動化技術的產品,究竟選擇哪一個更合適?尤其是當這些技...

CDialog窗體最大化

setwindowpos this m hwnd,hwnd topmost,0,0,0,0,swp nomove swp nosize centerwindow hdc hdesktopdc createdc t display null,null,null int xscrn getdevicec...

NOIP模擬 最大化

一個好像很經典的題目,但是之前沒打過。不過仔細想一想還是很容易的。首先很容易想到把這個表現為矩陣字首和的形式,然後就是要求這個大於0。然後就是一個很經典的轉換套路了 本來是a k l a i 1 l a k j 1 a i 1 j 1 0 然後移一下項就變成了 a k l a i 1 l a k j...