引子:
本篇是承接上篇《全网第一篇,小白阿里云GPU完全搭建手册》的姊妹篇,主要介绍阿里云vgpu机器vgn5I的实际安装部署教程。需要说明的是,这个vgpu的环境搭建和自己的gpu环境搭建完全不同,安装的方式和细节点有很多坑,本文主要是填坑指南。
一、显卡驱动安装
阿里云的的vgn5i选择主要是便宜,它的gpu型号是tesla P4,按照通用的驱动安装标准,我们需要知道我们的操作系统(Centos7)是否有可以支持的驱动型号。
<code>lspci
| grep -i nvidia
Tesla
P4 6.1 在列表中
/<code>
按照常规操作,我们就应该从NVIDIA上下载驱动安装了,但是这里千万不要按此操作,我就是在此处耽误了太多的时间,最后才找得到了阿里的帮助文档
https://help.aliyun.com/document_detail/118852.html
1.禁用nouveau
<code>vim
/etc/modprobe.d/blacklist-nouveau.conf
blacklist
nouveau
blacklist
lbm-nouveau
options
nouveau modeset=0
mv
/boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut
/boot/initramfs-$(uname -r).img $(uname -r)
/<code>
2.安装GRID驱动
按照阿里云的说法:”如果您的GPU计算型实例需要支持OpenGL图形显示,必须安装GRID驱动“,那我如果不适用OpenGL,是不是就可以不用装这个驱动了呢,很抱歉,不管你用不用OpenGL都是要安装的。
<code>wget
http://nvidia-418.oss-cn-shenzhen.aliyuncs.com/NVIDIA-Linux-x86_64-418.70-grid.run chmod +x NVIDIA-Linux-x86_64-418
.70
-grid.run ./NVIDIA-Linux-x86_64-418
.70
-grid.run /<code>
3.验证驱动是否安装正常
<code>-v
rpm
--import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm
-Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
yum
install nvidia-detect
-v
nvidia-smi
/<code>
如果出现下面的显示,就说明驱动安装正常了
二、CUDA和cuDNN安装
这也是一个比较大大大大的坑,这个坑折腾了我将近2天的时间,一直在找寻原因和解决办法,到最后才发现,必要要安装License,虽然阿里云的文档上写了这个步骤,但是没告诉我们为什么要这个做,做这个是为了解决什么问题,我无语。一句话,如果你需要使用CUDA,就需要安装License server并配置好。
1.CUDA和cuDNN的安装
这部分没有什么特别的,按照常规的安装即可。
<code>https:
//docs.nvidia.com/cuda
/cuda-toolkit-release-notes/index
.html 找到对应CUDA为10.1
https:
//developer.nvidia.com/rdp
/cudnn-archive 找到cuDNN版本7.6.4
/<code>
在上一篇文章中我提到了最好的方法,是用run文件的方式,具体的操作步骤详见上一篇文章《全网第一篇,小白阿里云GPU完全搭建手册》,主要如果有错误的话,run的安装可以直接看到错误日志,很方便定位到具体的原因
2.License操作
阿里云也算是一半贴心吧,可以提工单申请临时的License的地址
<code>cd
/etc/nvidia
cp
gridd.conf.template gridd.conf
vim
gridd.conf
ServerAddress
=ServerPort
=FeatureType
=1
/<code>
如果要长久使用,需要单独部署一台windows服务器,作为License server,然后去NVIDIA官网申请,下面有一篇比较详细的配置文档,可做参考:
https://forum.huawei.com/enterprise/zh/thread-475551.html
3.验证是否可以正常运行AI项目
不同的项目采用的框架不同,下面的演示是采用的pytorch的方式,具体详细的细节,在下一篇关于中文OCR的AI项目实战中,我会详细介绍步骤的,这里采用一个比较简单的pytorch文件来验证
<code>import
torchif
__name__ =='__main__'
:"Support CUDA ?: "
, torch.cuda.is_available()) x = torch.Tensor([1.0
]) xx = x.cuda()2
,3
) yy = y.cuda()from
torch.backendsimport
cudnn"Support cudnn ?: "
,cudnn.is_acceptable(xx))/<code>
执行python test_cuda.py ,如果现实下面的输出,即为验证CUDA通过
至此,阿里云的vgn5i的环境就算彻底配置完成,下面就是享受自己的AI之旅了,顺便给自己的下一篇文章做个预热:《github最火的中文OCR的AI识别工程--全填坑指南及真实工程优化》