新詞發現方法資料

2021-08-01 13:48:03 字數 408 閱讀 2051

新詞發現與詞的切分差不多是同一回事

1.資訊熵

最常用2.基於切分的新詞發現

相比1計算量要小,可能引數選取需要根據文字資料量來調整

3.遺忘演算法

可能是計算量最小的演算法了,效果有待驗證

特點:無監督學習

o(n)級時間複雜度

訓練、執行為同一過程,可無縫處理流式資料

未登入詞、新詞、登入詞沒有區別

領域自適應:領域變化時,詞條、詞頻自適應的隨之調整

演算法中僅使用到頻數這一語言的共性特徵,無需對任何字元做特別處理,因此原理上跨語種。

主要內容就是下面這個公式

更新中~~~

關聯規則發現和新詞發現

關聯規則發現常常用在購物籃分析中。假設a和b同時被買的頻率很高 支援度 買a的人同時買b的可能性也很高 置信度 則可以形成一條規則 a b。表示買a的人也會買b。對於自然語言處理來說,分詞非常關鍵,而分詞都要依賴詞庫。新詞每天都在產生,如果詞庫中不包含某乙個新詞,則這個詞就不會被分出來,所以自動發現...

Java新詞發現演算法碼源之使用

最近在學中文分詞。像是什麼樸素貝葉斯,hmm,n gram方法之類的,重要的還有發現新詞。發現新詞用到了github上的sing1ee dict build,講解在 自動構建中文詞庫 挺有意思的。在github上,位址為 在idea上開啟後,builder方法不行 改到main方法,更改後才行 注意...

換錢的方法數

題目 給定陣列arr,arr中所有的值都為整數且不重複。每個值代表一種面值的貨幣,每種面值的貨幣可以使用任意張,再給定乙個整數代表要找的錢數,求換錢有多少種方法。舉例 arr 5,10,25,1 aim 0 組成0元的方法有1種,就是所有面值的貨幣都不用。所以返回1。arr 5,10,25,1 ai...