筆記整合三 fastText原理剖析

2021-10-23 13:45:50 字數 1398 閱讀 6385

一、邏輯回歸

1.1 從線性回歸到邏輯回歸

線性回歸的模型求出的是輸出特徵向量與輸入樣本矩陣x之間得線性關係係數k,即我們的y是連續的,假設我們想要y離散的話,那麼思路可以為對這個y在做一次函式,由此得到乙個 分類函式。

邏輯回歸即對線性回歸的結果做了乙個sigmoid函式,將其結果整合到了[0,1]中,由此得到乙個分類函式。

1.2 邏輯回歸

邏輯回歸本質上是線性回歸,只是在特徵到結果的對映中加入了一層邏輯函式g(z),即先把特徵線性求和,然後使用函式g(z)作為假設函式來**。g(z)可以將連續值對映到0 和1。g(z)為sigmoid 函式。

1.3 離散化

1、邏輯回歸屬於廣義線性模型,表達能力受限;單變數離散化為n個後,每個變數有單獨的權重,相當於為模型引入了非線性,能夠提公升模型表達能力,加大擬合; 離散特徵的增加和減少都很容易,易於模型的快速迭代;

2、速度快!稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件;

3、離散化後的特徵對異常資料有很強的魯棒性

4、特徵離散化後,模型會更穩定,並且簡化模型,防止過擬合

二、softmax回歸

softmax回歸又稱多項邏輯回歸,它是邏輯回歸在處理多類別任務上的推廣。

標準的邏輯回歸中,計算y=k時候的概率時,我們要對所有的k個概率做歸一化,為提公升效率,分層softmax應運而生,其基本思想是使用樹的層級結構替代扁平化的標準softmax,使得計算p(k=k)時是需要計算一條路徑上所有節點的概率值(其中,樹的結構是根據類標的頻數構造的霍夫曼樹:即最優二叉樹,霍夫曼樹是帶權路徑長度最短的樹,權值較大的節點離根節點較近。)。

三、n-gram 特徵

它是一種基於統計語言模型的演算法,其基本思想是將文字裡面的內容按照位元組進行大小為 n 的滑動視窗操作,形成了長度是 n 的位元組片段序列。每乙個位元組片段稱為 gram,對所有的 gram 的出現頻度進行統計,並且按照事先設定好的閾值進行過濾,形成關鍵 gram 列表,也就是這個文字的向量特徵空間。列表中的每一種 gram 就是乙個特徵向量維度。

n-gram 演算法採用固定長度為 n 的滑動視窗進行切分,目前常用 n-gram 模型是二元的 bi-gram 和三元的 tri-gram 模型。

四、fasttext核心思想

其核心為softmax線性多類別分類器,分類器的輸入是乙個用來表徵當前文件的向量;模型的前半部分,即從輸入層輸入到隱含層輸出部分,主要在做一件事情:生成用來表徵文件的向量:疊加構成這篇文件的所有詞及n-gram的詞向量,然後取平均。疊加詞向量背後的思想就是傳統的詞袋法,即將文件看成乙個由詞構成的集合。

簡單描述一下就是:將整篇文件的詞及n-gram向量疊加平均得到文件向量,然後使用文件向量做softmax多分類。這中間涉及到兩個技巧:字元級n-gram特徵的引入以及分層softmax分類。

它適合類別特別多的分類問題,如果類別比較少,容易過擬合。

FastText模型原理

預備知識 n gram模型 對句子或單詞的所有長度為n的子句或子字串進行操作,如2 gram中,對 girl 的字串為 gi ir rl 進行操作,通常有操作如下 cbow模型 是把單詞的高維稀疏的one hot向量對映為低維稠密的表示的方法。模型架構如下 此處有圖 x c h 1c i 1cx i...

fasttext工作原理

fasttext 是facebook於2016年開源的乙個詞向量計算和文字分類工具,在文字分類任務中,fasttext 淺層網路 往往能取得和深度網路相媲美的精度,卻在訓練時間上比深度網路快許多數量級,在標準的多核cpu上,能夠訓練10億詞級別語料庫的詞向量在10分鐘之內,能夠分類有著30萬多類別的...

fasttext使用筆記

這裡記錄使用fasttext訓練word vector筆記 gitclone cdfasttext make make報錯 原因gcc版本過低 gcc v 公升級版本 參考 1.新增源 首先新增ppa到庫 sudo add apt repository ppa ubuntu toolchain r ...