數字公式識別的學習筆記(legacy)

2021-10-23 19:23:56 字數 1333 閱讀 1392

(為了提高訓練的速度),我們遵循了原始**的預處理,對影象進行了2倍下取樣,

基於norm的預處理方法是由image-to-markup在**中提出的,

在**的github-repo中,使用了python和js**來完成預處理的功能,

我當時覺得很奇怪,為什麼要用js的**,後來想到,這是因為對於latex的語法檢查,

可能是基於js來實現的,所以會用到js**,

這裡我們跟隨原始repo的實現來進行;

因為我們的ocr專案中的標註不會出現多義的現象,所以不需要進行標準化;

這裡我們可以直接使用官方repo處理過的資料;

也可以follow原始repo的**,進行預處理的復現;

注意:原始repo是基於python-2.7的,所以需要基於python-2.7來執行;

1. 使用conda新建python-2.7的虛擬環境

traceback (most recent call last):

file "scripts/preprocessing/preprocess_filter.py", line 4, in

import pil

importerror: no module named pil

所以需要安裝pil庫,但是pil庫似乎已經停止維護了,所以我們需要使用pillow庫;

使用conda命令安裝時會有問題,會把我們的python直接更新到最新的版本,所以不能使用conda命令進行安裝,我們使用pip命令進行安裝;

command 'pip' not found, but can be installed with:

sudo apt install python-pip

所以還需要先安裝pip程式)

2. 安裝pip程式:sudo apt install python-pip

3. 安裝pillow庫

**中使用的評價指標是bleu,需要注意的是,

原始**的實現中,ngram = 4,

**的截圖如下:

數字公式識別的學習筆記

我們準備使用基於attention的方法來實現數字公式識別的任務 1.gcnet,bleu 89.72 模型 gcnet global context based network with transformer for image2latex 未開源 2.mer dattn,bleu 88.42 ...

人臉識別的深度學習

深度學習只不過是機器學習的標準範例,更準確地說 是其演算法之一。在最大程度上,它基於人腦的概念和神經元的相互作用。如果你開始谷歌搜尋深度學習是什麼,你會發現今天這個超級熱門詞遠遠不是新的。為什麼這樣?該術語本身出現在20世紀80年代,但到2012年,沒有足夠的力量來實施這項技術,幾乎沒有人關注它。在...

人臉識別的深度學習

深度學習只不過是機器學習的標準範例,更準確地說 是其演算法之一。在最大程度上,它基於人腦的概念和神經元的相互作用。如果你開始谷歌搜尋深度學習是什麼,你會發現今天這個超級熱門詞遠遠不是新的。為什麼這樣?該術語本身出現在20世紀80年代,但到2012年,沒有足夠的力量來實施這項技術,幾乎沒有人關注它。在...