人臉合成系列近期文章整理

2021-09-22 21:19:07 字數 2252 閱讀 5708

重要,單開一篇筆記。

cvpr 2018 重要,單開一篇筆記。

prcv 2018

使用vae+cgan

三個創新點:

判別器同時做real/fake分類和id分類,在判別器的最後三層特徵圖上做fm(特徵匹配) loss,又用乙個旁觀的識別模型做感知loss,與fm類似。vae生成的是兩張圖,一是不加噪生成的重構圖,二是加噪生成的合成圖,重構圖做重構loss,重構和合成圖都做判別損失。

最終實驗,在facescrub上train生成模型和識別模型,在lfw上直接test,沒有對lfw作增強。兩種增強方式,一是為已知id生成更多樣本;二是生成新id。竟然都word,但是第二種帶來的提高不大。但是沒有試過兩種方式都用。由於訓練集和測試集不是乙個,所以準確率僅92-93,畢竟太高了就不能體現增強的效果了,應該是出於這個考慮沒有在lfw上訓練。

對實驗的可靠性持懷疑態度。。

work in progress...icml 2019?

目標也是要生成新的id參與人臉識別任務的訓練。將one-hot的id向量經過乙個enbedding網路變為連續的高斯分布,輸出為e(y),用對抗自編碼器的思想迫使e(y)服從高斯。然後再取樣乙個雜訊向量zn

idznid

搞成id無關的屬性資訊。注意,用infogan學習id無關的屬性,不需要屬性的標註,但學出來的東西應該不如帶屬性標註的方法(如stargan)靠譜。實驗部分沒看,作者肯定是從e(y)中隨機取樣,當做新的id編碼,用生成的影象參與訓練。整個生成架構使用wgan-gp+pggan。

eccv 2018 shiguang shan團隊

文章的核心就是引入空間attention機制,引導屬性edit,其實attention機制dacheng tao老師和ian goodfellow今年都做了類似的工作,特別是dacheng老師的那一篇,可以說跟這一篇幾乎完全一樣,所以這篇文章感覺有點水。motivation很直接,就是引入空間的attention,讓模型有目的地去修改畫素,而不是像cyclegan或者stargan一樣全圖改。作者也提到了,這種方法可以用來做資料增強,有利於人臉識別任務。

本文以cyclegan、stargan和resgan作為baseline,其中resgan的想法就是學殘差圖,再跟原圖相加,其實我之前做過類似實驗,不太靠譜。

本文提出的方法,生成器只有乙個,類似stargan,以原圖和條件作為輸入,但是條件只能有乙個,這一點比stargan弱,作者說了這是下一步改進的方向,照理說多條件的實現也沒多難?難道是因為效果不好,或者沒時間做了?生成器分為兩個部分,乙個是attribute manipulation net(amn),另乙個是spatial attention net(san),amn任務是改畫素,san任務是找到關鍵的修改區域。amn的輸入是條件+image,四通道;san只輸入影象,三通道,這裡我表示嚴重的懷疑,如果san的輸入沒有條件,如何focus到目標區域?畢竟目標區域和條件是直接相關的啊!算了,繼續往下扯。判別器輸入是一張影象,輸出兩個東西,一是src,即**於真實分布還是偽造分布;二是cls,即輸入影象是否具有目標屬性。兩個輸出都是標量,表示概率。這裡對第二個輸出cls又表示嚴重的懷疑,模型要弄的屬性有很多個,雖說每次只能改乙個,但是判別器**知道你要判斷的是哪個屬性???

實驗部分就不多說了。主要提一下這個東西用於人臉識別任務的實驗,個人對於人臉的這幾個任務還不太熟,說實話這裡看的還不是很明白,可能寫的有點問題。作者並沒有用生成的影象參與訓練,而是在測試集上對於每個id生成幾個新樣本。我的理解是,對於每個query樣本,隨便編輯兩下多搞出幾個增廣樣本,再分別送到模型裡去查?也就是把單查詢任務搞成多查詢,讓效能得到提高。作者最後寫道,在celeba上做了smile的增強之後效能有所下降,可能是因為資料庫裡smile的臉比較少。

cvpr 2019??

stargan基礎上的改進,主要內容:一是target label vector應該加在哪個階段,結論是不應該跟原始影象拼起來,而應該加在中間的特徵上;二是加了action vector,取值是-1,0,1,代表編輯的方向,根據輸入影象的屬性和目標屬性來計算,這樣可以更好地引導生成,實際上就是讓生成器不需要學習輸入影象所屬的域,stargan中的生成器實際上需要隱式地把這個東西給學到;三是attention,這個跟shiguang shan老師那一篇可以說是一毛一樣的。

關於視覺attention的作用,文中給的說法是:能夠捕捉輸入影象和目標domain之間的相關性,使得domain-unrelated的區域得以保留。

此文的貢獻有限,而且action vector無疑增加了對標註的要求,必須知道輸入影象相應的屬性模型才能工作,這個貢獻,我覺得不行。如果投的是cvpr 2019,我覺得中不了。。。希望作者不要幹我。

dlib系列 人臉檢測

dlib 是乙個機器學習庫,採用c 編寫 提供c 和python介面 裡面包含 許多常用機器學習演算法。總之就是很好的框架,是官網給的教程。coding utf 8 import sys import dlib import cv2 from skimage import io 檢測器 detect...

人臉識別系列(十五) COCO Loss

這篇文章其實和normface原理完全相同,只是推理的切入點稍微有點不同。兩篇 發表的時間也相近。因此博主就不再詳細寫分析了,如果有看得不太懂的可以參考我的normface閱讀筆記。人臉識別系列 十四 normface 值得一提的是,這篇文章有乙個亮點就是在lfw上刷到了99.86 的成績,十分驚豔...

人臉識別系列(八) VGGFace

本文主要內容有二 1 從零開始構建乙個人臉識別資料庫,一共 2.6m images,over 2.6k people,構建過 程主要是程式實現的,少量人工參與。2 通過對比各種cnn網路,提出了乙個簡單有效的cnn網路,在各種公開的人臉識別資料庫上得到很好的效果。構建過程主要分為5個階段 1階段在i...