筆記整合三 fastText原理剖析

一、邏輯回歸

1.1 從線性回歸到邏輯回歸

線性回歸的模型求出的是輸出特徵向量與輸入樣本矩陣x之間得線性關係係數k，即我們的y是連續的，假設我們想要y離散的話，那麼思路可以為對這個y在做一次函式，由此得到乙個分類函式。

邏輯回歸即對線性回歸的結果做了乙個sigmoid函式，將其結果整合到了[0，1]中，由此得到乙個分類函式。

1.2 邏輯回歸

邏輯回歸本質上是線性回歸，只是在特徵到結果的對映中加入了一層邏輯函式g(z)，即先把特徵線性求和，然後使用函式g(z)作為假設函式來**。g(z)可以將連續值對映到0 和1。g(z)為sigmoid 函式。

1.3 離散化

1、邏輯回歸屬於廣義線性模型，表達能力受限；單變數離散化為n個後，每個變數有單獨的權重，相當於為模型引入了非線性，能夠提公升模型表達能力，加大擬合；離散特徵的增加和減少都很容易，易於模型的快速迭代；

2、速度快！稀疏向量內積乘法運算速度快，計算結果方便儲存，容易擴充套件；

3、離散化後的特徵對異常資料有很強的魯棒性

4、特徵離散化後，模型會更穩定，並且簡化模型，防止過擬合

二、softmax回歸

softmax回歸又稱多項邏輯回歸，它是邏輯回歸在處理多類別任務上的推廣。

標準的邏輯回歸中，計算y=k時候的概率時，我們要對所有的k個概率做歸一化，為提公升效率，分層softmax應運而生，其基本思想是使用樹的層級結構替代扁平化的標準softmax，使得計算p（k=k）時是需要計算一條路徑上所有節點的概率值（其中，樹的結構是根據類標的頻數構造的霍夫曼樹：即最優二叉樹，霍夫曼樹是帶權路徑長度最短的樹，權值較大的節點離根節點較近。）。

三、n-gram 特徵

它是一種基於統計語言模型的演算法，其基本思想是將文字裡面的內容按照位元組進行大小為 n 的滑動視窗操作，形成了長度是 n 的位元組片段序列。每乙個位元組片段稱為 gram，對所有的 gram 的出現頻度進行統計，並且按照事先設定好的閾值進行過濾，形成關鍵 gram 列表，也就是這個文字的向量特徵空間。列表中的每一種 gram 就是乙個特徵向量維度。

n-gram 演算法採用固定長度為 n 的滑動視窗進行切分，目前常用 n-gram 模型是二元的 bi-gram 和三元的 tri-gram 模型。

四、fasttext核心思想

其核心為softmax線性多類別分類器，分類器的輸入是乙個用來表徵當前文件的向量；模型的前半部分，即從輸入層輸入到隱含層輸出部分，主要在做一件事情：生成用來表徵文件的向量：疊加構成這篇文件的所有詞及n-gram的詞向量，然後取平均。疊加詞向量背後的思想就是傳統的詞袋法，即將文件看成乙個由詞構成的集合。

簡單描述一下就是：將整篇文件的詞及n-gram向量疊加平均得到文件向量，然後使用文件向量做softmax多分類。這中間涉及到兩個技巧：字元級n-gram特徵的引入以及分層softmax分類。

它適合類別特別多的分類問題，如果類別比較少，容易過擬合。

筆記整合三 fastText原理剖析

FastText模型原理

fasttext工作原理

fasttext使用筆記

筆記整合三 fastText原理剖析

FastText模型原理

fasttext工作原理

fasttext使用筆記

相關推薦