使用caffe製作自己的lmdb資料集

新鳥最近在一家半導體公司實習，接觸到的專案都是基於 caffe框架的深度學習方面的知識，前期對tensorflow比較熟，但是到了公司沒辦法啊！！！不會怎麼辦，只能硬著頭皮上啊！！！！中途碰壁不少，寫這篇部落格只是想以後方便查閱資料，另外一方面是給同樣在深度學習裡面摸爬滾打的朋友乙個參考吧！！！！

公司提供的資料都是工程師切分好的資料集，但是影象的大小有大有小，不能直接拿過來用在神經網路上面使用，因此需要我這樣的菜鳥對資料集進行必要的處理。首先，caffe的資料集一般為lmdb或levelmdb的檔案。

在caffe 中開發者為我們這樣的新鳥提供了這樣乙個類:convert_imageset.cpp可以直接拿過來使用，該類存放在根目錄下面的tools檔案下。使用之前需要編譯，編譯生成的可執行檔案放在build/tools下面，這個檔案的作用就是將檔案轉換成caffe框架下直接使用的lmdb檔案。下面開始資料集的製作，其中的資料是來自kaggle平台上面dog vs cat比賽的資料集，我只取用了其中的訓練集和測試集，訓練集10000張，測試集5000張，在這裡首先感謝kaggle平台提供優秀的資料集。、

我資料集的**是：

2.將資料集轉換為txt形式

資料集存放的位置是:/home/work.caffe/examples/images/dataset，在該檔案下建立乙個create_filelist.sh檔案，檔案內容如下：

data表示生成train.txt和test.txt的路徑，data_train表示訓練集資料的路徑，data_test表示測試集資料的路徑。

rm: 刪除檔案

find:尋找檔案

cut: 擷取路徑

sed:在每行的最後面加上標註，找到cat.*.jpg檔案在txt檔案內新增1

說明：cut是擷取路徑，這裡擷取的路徑是data_train和data_test的路徑，以 / 進行劃分：

如： examples/imges/dataset/train/cat.*.jpg此時劃分後examples位置為1，images為2，dataset為3，train為4，cat.*.jpg為5

因此-f5的意思就很明顯了。

開啟train.txt檔案內容如下：

3、生成lmdb資料集

在home/work.caffe/examples/images/dataset檔案下建立乙個create_lmdb.sh檔案，內容如下：

build/tools/convert_imageset，通過呼叫convert_imageset函式將資料集轉化為lmdb資料格式，

--shuffle是否隨機打亂的順序。預設為flase

--resize_height --resize_width將切片為寬高均為32的新的資料集。

/home//zhaoyoubiao/caffe/examples/images/dataset/train和/home//zhaoyoubiao/caffe/examples/images/dataset/test為訓練集合測試集的絕對路徑。通過執行如下命令：

將在/examples/images/dataset目錄下生成如下兩個檔案：img_train_lmdb和img_test_lmdb，至此在caffe框架下製作lmdb資料格式的資料集已經圓滿完成。

使用caffe製作自己的lmdb資料集

ubuntu14 04 caffe 製作自己的資料

使用caffe訓練自己的資料

caffe訓練自己的資料

使用caffe製作自己的lmdb資料集

ubuntu14 04 caffe 製作自己的資料

使用caffe訓練自己的資料

caffe訓練自己的資料

相關推薦