乾貨彙總 LSA及SVD介紹

2021-07-13 21:24:13 字數 1319 閱讀 6582

1. 前言

近期在看關於ner(named entity recognition)的*****,裡面涉及到的幾個機器學習的演算法,需要學習一下,在網上看了一些相關乾貨,彙總一下前人智慧型。

首先貼出幾篇寫的還不錯的blog

blog1 lsa潛在語義分析

該blog是在wiki中翻譯過來,翻譯的反正比我看原文理解的好,進行初步了解還是不錯的。

blog2 svd矩陣奇異值分解 && lsa潛語義分析演算法 && plsa

該blog講解了一些矩陣的基本知識,比如矩陣的秩、單位矩陣、對角矩陣、特徵向量、特徵值等。

該blog介紹了一種lsi實際的應用例子,可以拿來參考。

blog4 latent semantic analysis(lsa/ lsi)演算法簡介

該blog中講解了傳統向量空間模型的缺陷

website1 特徵值與特徵向量

該網頁介紹了特徵值和特徵向量的演算法,需要在上述演算法中使用到的。

svd tutorial

svd官方介紹

2、lsa or lsi的應用

摘自blog1

低維的語義空間可以用於以下幾個方面:

1 在低維語義空間可對文件進行比較,進而可用於文件聚類和文件分類。(–ing)

2 在翻譯好的文件上進行訓練,可以發現不同語言的相似文件,可用於跨語言檢索。

3 發現詞與詞之間的關係,可用於同義詞、歧義詞檢測。(–ing)

4 通過查詢對映到語義空間,可進行資訊檢索。

5 從語義的角度發現詞語的相關性,可用於「選擇題回答模型」(multi choice qustions answering model)。

3 內容

由上述文章可以對svd、lsa有乙個基本上的了解,lsa使用svd對矩陣進行奇異分解,說白了其實就是是降維,將原本的稀疏矩陣(該矩陣的行列是比較大的,比如10000*10000等等,所以注定為稀疏矩陣)進行去燥,在blog3中 提到了在很多情況下,前10%甚至1%的奇異值的和就佔了全部的奇異值之和的99%以上了,具體原因總結如下:

原始的詞-文件矩陣太大導致計算機無法處理,從此角度來看,降維後的新矩陣式原有矩陣的乙個近似。

原始的詞-文件矩陣中有噪音,從此角度來看,降維後的新矩陣式原矩陣的乙個去噪矩陣。

原始的詞-文件矩陣過於稀疏。原始的詞-文件矩陣精確的反映了每個詞是否「出現」於某篇文件的情況,然而我們往往對某篇文件「相關」的所有詞更感興趣,因此我們需要發掘乙個詞的各種同義詞的情況。

乾貨 Docker 資源彙總

docker 官方主頁 docker 官方部落格 docker 官方文件 docker store docker cloud docker hub docker 的源 倉庫 docker 發布版本歷史 release notes docker 常見問題 engine faq docker 遠端應用 ...

OSPF及一類LSA 二類LSA

ospf 鏈路狀態行協議 距離向量型和鏈路狀態型的區別 距離向量型 分布式計算 路由傳遞的計算都包含前乙個路由器計算的基礎。好處 減少計算量可以達到快速收斂的目的。壞處 前乙個計算錯誤會出現問題可靠性低,在傳遞過程中會將不優的丟棄 鏈路狀態型 先傳遞資訊沿途路由器不會進行加工。會收到全網的鏈路狀態形...

硬核乾貨演算法文章彙總

17.持續更新.16.目標檢測演算法 第16期 yolo v2演算法結構詳解 15.目標檢測演算法 第15期 yolo v1損失函式詳解 14.目標檢測演算法 第14期 yolo v1檢測演算法詳解 13.目標檢測演算法 第13期 ssd檢測演算法必須知道的幾個關鍵點 12.目標檢測演算法 第12期...