伯克利AI實驗室出品 用GAN實現字型風格遷移

2021-09-11 09:07:08 字數 2203 閱讀 2321

作者 | samaneh azadi

譯者 | sambodhi

編輯 | debra

文字是二維設計的重要視覺元素。藝術家耗費大量時間來設計字形,使得這些字形看上去與其他元素的形狀和紋理等相匹配。這一過程本身就是勞動密集型的工作,藝術家通常只設計標題或注釋所需的字形子集,這樣一來,設計一旦完成,文字就很難再次被修改,其他人也無法直接將已有的字型例項用於自己的專案中。

關於字形合成的早期研究主要集中在輪廓的幾何建模上,它只限於特定的字形拓撲(如不能應用於裝飾性或手寫體字形),不能用於影象輸入。不過,隨著深度神經網路的興起,研究人員開始研究從圖形中進行字形建模的方法。另一方面,綜合與部分觀察相一致的資料是計算視覺和圖形學中的乙個有趣問題,例如多視角影象生成、影象完成缺失區域和生成三維形狀。字型資料就是乙個提供了樣式和內容的乾淨分解的示例。

在許多生成應用中,條件生成式對抗網路(conditional generative adversarial networks,cgan )最近的進展取得了很大的成果。然而,它們只能在相當專業的領域內才能做到最好,而不能做到一般的或多領域的風格遷移。類似的,如果直接用於生成字形時,cgan 模型就會產生顯著的影象偽影。比如,給定如下圖所示的五個字母:

訓練 cgan 學習上圖 5 個字母的字形風格,然後生成相同風格的 26 個字母,結果並不成功。

適用於少數字型風格遷移的多內容 gan

我們沒有為所有可能的字型裝飾訓練單一網路,而是設計了多內容 gan(multi-content gan)架構,為每個觀察到的字符集重新訓練乙個定製的網路,只需觀察少量的字形即可。這個模型的思路是用通道內的文字(a~z)和神經網路層中的風格,將給定的字形風格遷移到看不到的內容。

多內容 gan 模型由多個 cgan 堆疊組成,其中乙個 cgan 用來**粗略的字形形狀,乙個 cgan 用來**字形最終的顏色和紋理。第乙個網路稱為 glyphnet,**字形蒙版;第二個網路稱為 ornanet,用來對第乙個網路生成的字形進行著色和裝飾。每個子網路都遵循 cgan 的體系架構,其中部分架構會因實現**字形或裝飾等目的而微調。

網路架構

下圖是 glyphnet 的示意圖,揭示了如何從一組訓練資料集中,學習字型的風格。glyphnet 的輸入和輸出是每個字母分配通道的字形堆疊。在每輪訓練迭代中,x1 從 y1 中隨機抽取一組字形子集,其餘的輸入通道清零。

通過這種新穎的字形堆疊設計,神經網路可通過通道資訊獲得不同字形之間的相互關係,從而實現自動風格遷移。如下圖所示,揭示了模型如何從 1500 個字形樣本中學到相關性,並經結構相似性(ssim)標準進行量化。一次只需觀察乙個字母,就可找到 25 個分布。這些圖顯示了當字母β被觀察到時(藍色)與其他字母而不是β被給出(紅色)時生成字母α的分布α|β。圖中顯示了兩個資訊最豐富的給定字母的分布和兩個最不明顯的資訊,分別用於生成 26 個字母。例如,從圖中的第五行可知,字母 f 和 b 在生成字母 e 時最有建設性,與其他字母相比較,而 i 和 w 是包含資訊量最少的字母。另外,o 和 c 是用於構造 g 以及用於生成 p 的 r 和 b 的最具建設性意義的字母。

因此,就算只觀察到少數幾個字母的任何想要的字型,經過預訓練的 glyphnet 會根據這些字母的風格生成全部 26 個 a~z 的字形。但是,我們應該如何實現風格遷移呢?第二網路 ornanet 採用這些生成的字形,multi-content gan 對這些資料經過重複的轉換,如下圖中,用 t 表示灰度通道重複的步驟,之後 ornanet 再用 cgan 生成滿足預期的顏色和裝飾。ornanet 的輸入和輸出是批量的 rgb 影象,而不是堆疊,其中每個字母的 rgb 通道,作為影象被反覆填充進 glyphnet 生成的相應灰度字形中。ornanet 中也被填進多個正則項(regularizer),用於彌補生成字母的掩碼與相應字形的偏差。結果

下面是我們演示使用單個詞中給出的字型樣式的示例句子。

另外,這裡是 ornanet **的逐步過程:

參考文獻

[1] phillip isola, jun-yan zhu, tinghui zhou, and alexei a. efros. "image-to-image translation with conditional adversarial networks." cvpr 2017.

[2] samaneh azadi, matthew fisher, vladimir kim, zhaowen wang, eli shechtman, and trevor darrell. "multi-content gan for few-shot font style transfer." cvpr 2018.

wireshark中伯克利包過濾介紹

bpf berkeley packet filter 採用與自然語言相近的語法,利用語法構造字串確定保留具體符合規則的資料報而忽略其他資料報。dir表示資料報傳輸的方向 src dst proto表示與資料報匹配的協議型別 ether ip tcp arp 例如 ip.addr ip位址 ip.sr...

伯克利最新發明機械人

近日,雷鋒網新智造知悉 加州大學伯克利分校的計算機科學家們研發出 可以預見未來要發生的事情 的機械人技術,利用這項技術,機器可以做到 操控以前沒有見過的物件 並且在未來,這項技術可以應用在自動駕駛汽車的 事件,並可以幫助生產更多的家庭機械人。這個機械人的名字叫 vestri,所利用的技術是視覺預見技...

伯克利《深度無監督學習》課程資源分享

今天給大家推薦一門加州大學伯克利分校的新開課程cs294深度無監督學習。本課程將涵蓋深度學習中不需要標註資料的兩個領域 深度生成模型和自監督學習。生成模型的最新進展使得對自然影象 音訊波形和文字語料庫等高維原始資料進行真實建模成為可能。自監督學習的進步已經開始縮小監督表示學習和非監督表示學習之間的差...