深度学习环境配置(二)
Conda 配置 CUDA/CuDNN/PyTorch
希望在服务器上重新配置一套 Python / Pytorch / CUDA / CuDNN 环境。之前的环境为了兼容一些旧项目 (点名 TVM) 而使用了各个驱动和软件包的较低版本,导致运行新项目时易产生兼容性问题。
在 Conda 中完成配置。
安装 Anaconda3
安装命令如下。
1 | chmod 777 Anaconda3-2024.10-1-Linux-x86_64.sh |
交互内容使用默认选项即可。
1 | # Do you accept the license terms? [yes|no] |
环境变量设置
在 /etc/profile 中配置 Conda 路径,如下。
1 | # vim /etc/profile |
检查 Conda 版本,有输出即为安装成功。
1 | conda -V # 24.9.2 |
创建 Python 环境
以 Python 3.11 为例,创建 Conda 环境
1 | conda create -n torch python=3.11 |
执行初始化检查,并刷新 .bashrc
1 | conda init |
笔者这里使用 python3
才能看到 Conda 安装的 Python 版本,这是因为此前使用 alias 进行过 Python 版本切换。
1 | conda activate torch |
安装 CUDA & CuDNN
采用 CudaToolkit 方式安装 CUDA。首先查看当前 Nvidia Driver 支持的最高版本,然后执行如下命令
1 | (torch) conda install nvidia/label/cuda-12.2.2::cuda-toolkit |
查找 CuDNN 可用版本
1 | (torch) conda search cudnn |
输出如下
1 | Loading channels: done |
安装指定版本
1 | (torch) conda install cudnn=9.1 |
安装 PyTorch
参考 PyTorch 官网提供的 Instruction 安装 PyTorch (p.s. 现在对 Rocm 支持越来越好了,AMD YES)
1 | conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.1 -c pytorch -c nvidia |
首次安装时意外卡在 99%,Ctrl + C 后重新安装,出现如下报错
1 | CondaVerificationError: The package for pytorch located at /root/anaconda3/pkgs/pytorch-2.5.1-py3.11_cuda12.1_cudnn9.1.0_0 |
执行如下命令清理损坏的包
1 | (torch) conda clean --packages |
交互内容使用默认选项即可。
1 | # Will remove 158 (10.90 GB) package(s). |
可能在 Solving environment 一行卡住较长时间,耐心等待。
测试
编写一个小脚本测试当前 Conda 环境中安装的驱动和软件包版本。
1 | print(torch.backends.cudnn.version()) # 90100 |
References
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Miya's Blog!
评论