無監督分詞中ngram片段的基礎特徵總結

2021-06-21 22:15:30 字數 605 閱讀 8234

無監督分詞，主要思路就是從未標註的語料(生語料)中抽取n-gram片段，然後計算這些n-grams的特徵，進而根據這些特徵判別哪些是「詞」，哪些不是「詞」。然後根據這些特徵對字串進行分詞。

也就是說，無監督分詞可以分成兩個研究領域，乙個叫做詞抽取(word extraction)，就是只從生語料中抽取出乙個詞的列表來，另一類則是分詞，需要在詞抽取的基礎上，進行進一步的分詞操作，這種操作一般可以認為是一種解碼過程。

無監督分詞n-gram的特徵常用的有四個：

1 子字串削減詞頻，frequency of sub-string with reduction(fsr).基本就是詞頻特徵，其基本的idea就是認為如果兩個重合的n-gram，乙個包含另外乙個，詞頻一致，則較短的n-gram就不是詞，需要淘汰。

fsr(w)=log(p(w)),其中w就是n-gram片段，p(w)就是取w的詞頻。

一般而言，這個方法還包含乙個"statistical substring reduction"操作，就是將相同頻率的子字串刪除。

2 描述長度增益，description length gain。乙個n-gram片段用x(i)x(i+1)...x(j)表示，而全部語料可以用x=x(1)...x(n)表示

NLP 分詞詞幹化 n gram

在nlp中，需要將文字進行單詞或片語的分割，以便於構建特徵。例如，i am a student 可以分詞為 i am a student 由於英文的特點，每個單詞都有空格，所以比較好分。但是像中文，只有句子與句子之間才有明顯的分割，單詞和片語之間無法直接分割，所以就需要一定的規則庫對中文分詞處理。詞...

有監督與無監督

機器學習分為監督學習，無監督學習，半監督學習也可以用hinton所說的強化學習等。簡單的歸納就是，是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤，則為有監督學習沒標籤則為無監督學習。有監督和無監督中間包含的一種學習演算法是半監督學習 semi super...

無監督調研

一.無監督 1.傳統的機器學習無監督機器學習無監督目前網上介紹的無監督學習，主要是機器學習方向，以聚類和降維為主，不太適用目前工程專案.2.深度學習無監督待補坑二.自監督學習自監督思考無監督特徵學習自監督學習屬於無監督學習,在深度學習中，經常遇到的問題是沒有足夠的標記資料，而手工標記資...