Caffe安裝以及GPU伺服器設定並行

2021-07-31 15:53:19 字數 2039 閱讀 4702

這個很簡單,在網上就有很多的安裝教程,但我這裡也稍微講下吧。我這裡用的是ubuntu的系統。

首先登陸root賬號

cd caffe/

mv makefile.config.example makefile.config

修改makefile.config:

vi makefile.config

如果電腦上沒有gpu,需要把其中的cpu_only開啟,就是去掉注釋。

下面這個是vi的一些操作指令,本人新手,所以想新手都可能會用到。

編譯caffe:

make -j

對了,本人一開始用的電腦比較舊多執行緒貌似不支援,編譯就用的是

make all

有很多教程是在caffe安裝之前做這部的,但是我說了,我之前的caffe是已經裝好的cpu版的,所以之後想改,就自己找了資料,進行修改了。因為用的是多gpu的伺服器,肯定要並行運算啊,不然要那麼多gpu幹嘛?所以要並行就要安裝nccl,不然是不行的。

安裝步驟:

git clone

cd nccl

sudo make install -j4

nccl 庫和檔案頭將安裝在 /usr/local/lib 和 /usr/local/include 中。

之前說了,很多教程是在編譯caffe之前安裝nccl的,為什麼呢,因為修改了makefile.config啊!!

因為要進行並行使用,所以在makefile.config中要把use_nccl=1前面的注釋去掉,同樣使用vi命令啦。

這樣修改儲存後,接下來就是重新編譯caffe了。

首先,是將之前的clean掉了,輸入:

make clean

然後,重新編譯:

make -j

到這裡之後,我就試著使用:

./build/tools/caffe train -solver=examples/mnist/lenet_solver.prototxt -gpu all

進行測試啦,結果果然出錯了。。。。。

具體的錯誤就是:

error while loading shared libraries: libnccl.so.1: cannot open shared object file: no such file or directory

說是沒有這個檔案,我又開始搜啊搜。。。

結果是在一篇部落格找到解決方案:

具體的原因說是:但執行需要呼叫該共享庫的程式的時候, 程式按照預設共享庫路徑找不到該共享庫檔案。

方法很簡單,就是用root賬戶執行下:

ldconfig

這個命令,就好了,對了,第乙個是l的小寫,不是i的大寫哦。

對了,這個部落格位址是:

有興趣可以看看的。

我解決好這個問題後又開心的執行上面的:

./build/tools/caffe train -solver=examples/mnist/lenet_solver.prototxt -gpu all

結果就是又出錯了啊!!!錯誤就是下面這個:

check failed: result == ncclsuccess (1 vs. 0) unhandled cuda error

大概看了一下,意思就是nccl沒有成功,我沒有再上網亂搜,而是想起來之前看的gpu伺服器的介紹,想起來我這台伺服器上有9塊gpu,但實際上只有8塊是真的能使用的,另一塊是伺服器自己的用來顯示什麼的一些其他功能的,所以我就想是不是那塊的原因,於是我就修改了下命令:

這次終於沒有出錯,開始了它該做的事情。

(所以大家做事要耐心。。。)

其實我就是個新手,就是蒐集了些資料,想方便自己,也方便別人看看,如果有人看得到的話。。。

GPU雲伺服器

您只需要專注於深度學習本身,無需安裝任何深度學習環境,零設定開啟您的深度學習之旅。極客雲,為深度學習而生,您只需簡單幾步操作即可測試和訓練您的模型。上傳的資料將會被掛載到 連線後伺服器的 data 目錄下 類似linux命令的使用方法 不要在 data追直接解壓,否則很慢 no module nam...

租用GPU伺服器

如果是長期使用,建議自己購買帶顯示卡的硬體伺服器,這樣綜合性比價最高 如果是短期或臨時使用,建議租用雲伺服器,方便快捷,隨用隨買,節省成本,那麼租用雲伺服器,相比 gpu 傳統線下應用,雲上 gpu 主要服務以海量資料為特徵的高效能計算,有下面三大應用領域 圖形影象處理 gpu 的傳統用途,在雲上面...

linux伺服器如何指定gpu以及用量

from 在終端執行程式時指定gpu cuda visible devices 0 python your file.py 指定gpu集群中第一塊gpu使用,其他的遮蔽掉 cuda visible devices 1 only device 1 will be seen cuda visible d...