數字公式識別的學習筆記

2021-10-24 12:48:05 字數 1392 閱讀 2122

我們準備使用基於attention的方法來實現數字公式識別的任務~

1. gcnet, bleu: 89.72

模型:gcnet

**:global context-based network with transformer for image2latex

**:未開源

2. mer-dattn, bleu: 88.42

**:未開源

2. im2tex, bleu: 87.73

模型:im2tex

**:image-to-markup generation with coarse-to-fine attention

**:已開源(

資料集中有空白:

資料集中有全部是空白的,(後面預處理時會直接截取出空白的);

資料集樣本數:103536個

(formula_images資料夾中會多乙個texput.log檔案)

採用「最小格式」標註:

這樣之後,可能會存在難以閱讀的情況,需要加入「閱讀模式」對長公式**進行排版;

由於給出的是一整個紙張大小的png,所以還需要進行裁剪;

預處理生成的影象大小不統一,我們將統一padding到相同的大小;

模型整體結構時基於transformer來實現的,

關於transformer的解讀請參考《transformer **完全解讀!》

主幹網路使用的是resnet34_vd;

權值初始化使用了kaiming初始化的方法;

對於模型本身,在前向推理的時候沒有使用「置信度啟用」;

不過在訓練的時候,我們加入了「softmax」對概率值進行了「非線性啟用」,這樣可以幫助模型的收斂;

note:在模型的最後,則不需要加入softmax函式,

因為softmax是乙個單調增函式,為了降低計算量,我們在推理時也就不用再經過softmax的運算了。

在南溪看來,word embedding是一項很好的技術;

它將單詞用embedding進行表示,從而使得embedding具有了(在距離上的)語義資訊;

那麼word-embedding技術如何用於數字公式識別呢?

其實這裡是使用了一種類似於self-supervised的思想,首先我們假設:

我們可以從單詞的one-hot編碼,對映出一種多維度的特徵,

這裡有點像「轉置卷積」中的「補繪」的思想!

所以我們的目標就是學習出這樣的embedding,

這裡我們首先建立了模型的對映關係,然後用模型表達出來,對結果進行有監督地訓練;

從而完成了embedding的自監督學習

數字公式識別的學習筆記(legacy)

為了提高訓練的速度 我們遵循了原始 的預處理,對影象進行了2倍下取樣,基於norm的預處理方法是由image to markup在 中提出的,在 的github repo中,使用了python和js 來完成預處理的功能,我當時覺得很奇怪,為什麼要用js的 後來想到,這是因為對於latex的語法檢查,...

人臉識別的深度學習

深度學習只不過是機器學習的標準範例,更準確地說 是其演算法之一。在最大程度上,它基於人腦的概念和神經元的相互作用。如果你開始谷歌搜尋深度學習是什麼,你會發現今天這個超級熱門詞遠遠不是新的。為什麼這樣?該術語本身出現在20世紀80年代,但到2012年,沒有足夠的力量來實施這項技術,幾乎沒有人關注它。在...

人臉識別的深度學習

深度學習只不過是機器學習的標準範例,更準確地說 是其演算法之一。在最大程度上,它基於人腦的概念和神經元的相互作用。如果你開始谷歌搜尋深度學習是什麼,你會發現今天這個超級熱門詞遠遠不是新的。為什麼這樣?該術語本身出現在20世紀80年代,但到2012年,沒有足夠的力量來實施這項技術,幾乎沒有人關注它。在...