NMF與LSA時間複雜度分析

淺層語義分析（lsa）通過「向量語義空間」來提取文件與詞中的「概念」，進而分析文件與詞之間的關係。

lsa的基本假設是，如果兩個詞多次出現在同一文件中，則這兩個詞在語義上具有相似性。

lsa使用大量的文字上構建乙個矩陣，這個矩陣的一行代表乙個詞，一列代表乙個文件，矩陣元素代表該詞在該文件中出現的次數，

然後再此矩陣上使用奇異值分解（svd）來保留列資訊的情況下減少矩陣行數，

之後每兩個詞語的相似性則可以通過其行向量的cos值（或者歸一化之後使用向量點乘）來進行標示，此值越接近於

1則說明兩個詞語越相似，越接近於

0則說明越不相似。

如圖所示，奇異值分解，就是把上面這樣乙個大矩陣，分解成三個小矩陣相乘。三個矩陣有非常清晰的物理含義。第乙個矩陣x是對詞進行分類的乙個結果。它的每一行表示乙個詞，每一列表示乙個語義相近的詞類，或者簡稱為語義類。這一行的每個非零元素表示這個詞在每個語義類中的重要性，數值越大越相關。如下所示：

非負矩陣分解(non-negative matrix factor)，簡稱

nmf，是由

lee和

seung

於1999

年在自然雜誌上提出的一種矩陣分解方法，它使分解後的所有分量均為非負值(要求純加性的描述

)，並且同時實現非線性的

維數

約減。

nmf的思想：

v=wh（w

權重矩陣、

h特徵矩陣、

v原矩陣），通過計算從原矩陣提取權重和特徵兩個不同的矩陣出來。屬於乙個無監督學習的演算法，其中限制條件就是w和

h中的所有元素都要大於0。

實驗執行環境：win10，

matlab r2017b

，16g

記憶體，intel core i7-6700hq[email protected]

實驗資料設定：

實驗隨機生成1000×1000的矩陣

m，分別進行

nmf與

lsa運算。

實驗程式見筆者部落格上傳資源部分中的test_lsa.m與test_nnmf.m檔案附件**。

1、lsa時間複雜度

lsa演算法的核心在於奇異值分解，而奇異值分解一般分兩步進行。首先，將矩陣a變換成乙個雙對角矩陣，這個過程的計算量為o(mn2)。第二步是將雙對角矩陣變成奇異值分解的三個矩陣，這一步的計算量可以忽略不計。所以，綜上所述，對於乙個 m×n 矩陣,用lsa降維至m×r,進行svd的時間複雜度是o(mn2), 並且,對乙個較大的稀疏矩陣,lsa降維的計算複雜度可降至: o(cmn),其中,c2、nmf時間複雜度

nmf演算法的時間效率取決於迭代的次數, 變化幅度也較大。

NMF與LSA時間複雜度分析

複雜度分析時間複雜度空間複雜度

複雜度分析時間複雜度分析和空間複雜度分析

時間複雜度與空間複雜度的分析

NMF與LSA時間複雜度分析

複雜度分析 時間複雜度 空間複雜度

複雜度分析 時間複雜度分析和空間複雜度分析

時間複雜度與空間複雜度的分析

相關推薦

複雜度分析時間複雜度空間複雜度

複雜度分析時間複雜度分析和空間複雜度分析