執行pytorch出現的問題

2021-09-26 19:49:21 字數 1833 閱讀 7669

1pytorch的版本問題

thcudacheck fail file=/pytorch/aten/src/thc/thcgeneral.cpp line=383 error=11 : invalid argument traceback (most recent call last): file "capsulenet.py", line 254, in train(model, train_loader, test_loader, args) file "capsulenet.py", line 160, in train y_pred, x_recon = model(x, y) # forward file "/home/deeplab/.local/lib/python3.6/site-packages/torch/nn/modules/module.py", line 493, in __call__ result = self.forward(*input, **kwargs) file "capsulenet.py", line 63, in forward x = self.digitcaps(x) file "/home/deeplab/.local/lib/python3.6/site-packages/torch/nn/modules/module.py", line 493, in __call__ result = self.forward(*input, **kwargs) file "/home/deeplab/tracy/pytorchcode/capsnet-pytorch-master/capsulelayers.py", line 54, in forward x_hat = torch.squeeze(torch.matmul(self.weight, x[:, none, :, :, none]), dim=-1) runtimeerror: cublas runtime error : the gpu program failed to execute at /pytorch/aten/src/thc/thcblas.cu:450

解決方法就是將pytorch重新安裝,並且採用離線安裝的方式

pip3 install

2執行之後,發現出現下面的問題

importerror: libcublas.so.9.0: cannot open shared object file: no such file or directory
解決方法就是採用

1、修改鏈結路徑

因為之前安裝過cuda9 不知是否這個原因導致它竟然去找了cuda9的庫

[root@localhost ~]# locate libcublas.so.9.0

/home/cuda_9/lib64/libcublas.so.9.0

/home/cuda_9/lib64/libcublas.so.9.0.176

因此,我當前的解決辦法是直接修改ld_library_path環境變數 讓你成功找到

測試一下

vim ~/.bashrc

#寫入下面內容 export cuda_home=/usr/local/cuda-10.0 export path=pat

h::pa

th:/bin export

ld_library_path=ldl

ibra

rypa

th::

ldl​ib

rary

p​at

h:/lib64:/home/cuda_9/lib64/

#結束 source ~/.bashrc

可以執行了。

執行test時出現的問題

可能是測試資料是在與使用的平台不同或使用不同的python版本中生成的 修改 這個computer overlap是個cython檔案,是個類似於c的python檔案,需要編譯,編譯檔案寫好了,是crfnet下面的setup.py,在crfnet資料夾下終端執行 python3 setup.py b...

ROS執行出現core dump的問題的解決方法

ros執行出現core dump的問題的解決方法 1 重新用debug方式編譯ros安裝包 catkin make dcmake build type debug2 接下來按照gdb的方法啟動ros節點 rosrun prefix gdb ex run args package node這裡pack...

pytorch 基礎問題

batch 和epoch 神經網路中引數更新常用隨機梯度下降法,batch控制模型內部引數更新之前訓練樣本的個數 epoch有乙個或多個barch組成,控制通過訓練資料集的完整傳遞的次數。比如訓練集有50000個樣本,而我設定的batch size是50,也就是說每50個樣本才更新一次引數,那麼也就...