《跨模態檢索Summary3 19》

看了一周的跨模態**，還是只能略知一二，但不積跬步無以至千里，下面概括一下所看所想。

跨模態資料呈現底層特徵異構（text and image）、高層語義（class）相關的特點，既要表示底層特徵，又要對高層語義建模以及關聯模態之間的聯絡。

跨模態檢索在方法上主要分為兩大類：一類是實值表示學習，一類是二值表示學習（跨模態雜湊方法），實值表示學習直接對從不同模態提取特徵進行學習，而二值表示學習是把特徵先對映到漢明二值空間（在資訊理論中，兩個等長字串之間的漢明距離是兩個字串對應位置的不同字元的個數），在空間中進行學習。

另外主流方法也可分為四類：子空間方法、深度學習方法、雜湊變換的方法和主題模型的方法。

1.子空間方法：下面我看的四篇**基本都是用的子空間方法，

基本思想：利用不同模態的成對樣本，共生資訊學習投影矩陣，將不同模態的特徵投影到乙個共同潛在子空間，然後在該子空間度量不同模態的相似性，從而實現跨模態搜尋。

所看**的做法：在有類標資訊的條件下，使得同類樣本在潛在子空間投影盡量接近而非同類樣本的投影盡量遠離。

提出多視角判別分析，該方法直接在投影空間計算類內、類間散度矩陣。提出用低秩和稀疏約束學習相關判別式特徵，提高潛在子空間的判別性。

高層語義綜合考慮文字、影象和語義3個模態，最大化兩兩之間的相關性學習到公共的潛在子空間。

優點：主要目的是學習到判別性的共享子空間，主要途徑是最大化相關性。但未能考慮模態內的資料區域性結構和模態間的結構匹配。乙個模態的領域對應於另一模態內的樣本也應該具有相鄰關係。子空間方法學習到的都是線性對映，無法有效的建模不同模態的高階相關性。

2.深度學習

利用深度學習的特徵抽取能力，在底層提取不同模態的有效表示，在高層建立不同模態的語義關聯

下面**還未學習到就不做深入思考

3.基於雜湊變換的跨模態方法：雜湊對映學習的基本依據是相似樣本的雜湊編碼是相似的

4.主題模型方法：基於主題模型的方法通過生成式模型來發掘跨模態資料中隱含主題空間，學習得到的「主題」具有較強的可解釋性。

1《deep adversarial metric learning for cross-modal retrieval》

本文是2023年的一篇sci,後面的幾篇**也是在此基礎上繼續優化改進的，現有跨模式檢索方法的核心是通過找到最大相關的嵌入空間來縮小不同模式之間的差距。本文提出了乙個新的深度對抗網路度量學習方法（daml）

將子空間學習過程分解為三個損失項：

1）利用對抗性損失：來最小化來自兩個不同模態的表示的兩個未知分布之間的「模態差距」，以促進模態不變；

2）特徵判別損失，它通過類別資訊對模態內相似性進行建模，並確保學習的表示具有判別性；

3）特徵相關損失，其使類內交叉模態樣本之間的距離最小化並且使類間交叉模態樣本之間的距離最大化；

model architecture2《ternary adversarial networks with self-supervision for zero-shot cross-modal retrieval》

本文是一片2019，sci一區的文章，受到zero-shot learning的啟發，提出了一種新模型，ternary adversarial networks with self-supervision(三元自監督的對抗網路跨模態搜尋tanss)

model architecture

1.兩個語義特徵學習子網路，獲取不同模態的內部資料結構，在公共語義空間保留模態關係。

2.乙個自監督的語義子網路，運用可見和不可見的類別標籤作為guide指導知識從可見到不可見遷移。

3.利用多抗學習的方案來最大化不同模態之間語義特徵的相關性和一致性。

可實現三個子網已整合到的tanss中，以制定可實現高效迭代引數優化的端到端網路體系結構。

tanss的結構優勢3《learning cross-aligned latent embeddings for zero-shot cross-modal retrieval》

這是一篇2023年的ccf a佳作，提出的新方法：learn- ing cross-aligned latent embeddings (lcale)，特定於模態的變分自動編碼器尋求輸入多模態特徵和類嵌入的共享低維潛在空間。

model architecture

方法：4《correlated features synthesis and alignment for zero-shot cross-modal retrieval》

本文是一篇2020的ccf a的佳作，提出了一種相關特徵整合對齊的方法，（correlated feature synthesis and alignment (cfsa)，把綜合特徵送入公共語義空間進行學習，提取不同跨模態相關的特徵，並且在迴圈一致的約束下，遷移到哪些看不到的類中去。

model architecture總結

感覺自己還只是了解了乙個大概，對於真正的開竅還需要很長一段路去走。