零基础玩转AI工程--阿里云虚拟GPU机器vgn5i环境部署

引子:

本篇是承接上篇《全网第一篇,小白阿里云GPU完全搭建手册》的姊妹篇,主要介绍阿里云vgpu机器vgn5I的实际安装部署教程。需要说明的是,这个vgpu的环境搭建和自己的gpu环境搭建完全不同,安装的方式和细节点有很多坑,本文主要是填坑指南。

一、显卡驱动安装

阿里云的的vgn5i选择主要是便宜,它的gpu型号是tesla P4,按照通用的驱动安装标准,我们需要知道我们的操作系统(Centos7)是否有可以支持的驱动型号。

零基础玩转AI工程--阿里云虚拟GPU机器vgn5i环境部署

<code> 

lspci

| grep -i nvidia

Tesla

P4 6.1 在列表中

/<code>

按照常规操作,我们就应该从NVIDIA上下载驱动安装了,但是这里千万不要按此操作,我就是在此处耽误了太多的时间,最后才找得到了阿里的帮助文档

https://help.aliyun.com/document_detail/118852.html

1.禁用nouveau

<code>

vim

/etc/modprobe.d/blacklist-nouveau.conf

blacklist

nouveau

blacklist

lbm-nouveau

options

nouveau modeset=0

mv

/boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

dracut

/boot/initramfs-$(uname -r).img $(uname -r)

/<code>

2.安装GRID驱动

按照阿里云的说法:”如果您的GPU计算型实例需要支持OpenGL图形显示,必须安装GRID驱动“,那我如果不适用OpenGL,是不是就可以不用装这个驱动了呢,很抱歉,不管你用不用OpenGL都是要安装的。

<code>

wget

http://nvidia-418.oss-cn-shenzhen.aliyuncs.com/NVIDIA-Linux-x86_64-418.70-grid.run chmod +x NVIDIA-Linux-x86_64-

418

.

70

-grid.run ./NVIDIA-Linux-x86_64-

418

.

70

-grid.run /<code>

3.验证驱动是否安装正常

<code>  

-v

rpm

--import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org

rpm

-Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm

yum

install nvidia-detect

-v

nvidia-smi

/<code>

如果出现下面的显示,就说明驱动安装正常了


零基础玩转AI工程--阿里云虚拟GPU机器vgn5i环境部署

二、CUDA和cuDNN安装

这也是一个比较大大大大的坑,这个坑折腾了我将近2天的时间,一直在找寻原因和解决办法,到最后才发现,必要要安装License,虽然阿里云的文档上写了这个步骤,但是没告诉我们为什么要这个做,做这个是为了解决什么问题,我无语。一句话,如果你需要使用CUDA,就需要安装License server并配置好。

1.CUDA和cuDNN的安装

这部分没有什么特别的,按照常规的安装即可。

<code> 

https:

/

/docs.nvidia.com/cuda

/cuda-toolkit-release-notes/index

.html 找到对应CUDA为

10.1

https:

/

/developer.nvidia.com/rdp

/cudnn-archive 找到cuDNN版本7.6.4

/<code>

在上一篇文章中我提到了最好的方法,是用run文件的方式,具体的操作步骤详见上一篇文章《全网第一篇,小白阿里云GPU完全搭建手册》,主要如果有错误的话,run的安装可以直接看到错误日志,很方便定位到具体的原因

2.License操作

阿里云也算是一半贴心吧,可以提工单申请临时的License的地址

<code>

cd

/etc/nvidia

cp

gridd.conf.template gridd.conf

vim

gridd.conf

ServerAddress

=

ServerPort

=

FeatureType

=

1

/<code>

如果要长久使用,需要单独部署一台windows服务器,作为License server,然后去NVIDIA官网申请,下面有一篇比较详细的配置文档,可做参考:

https://forum.huawei.com/enterprise/zh/thread-475551.html

3.验证是否可以正常运行AI项目

不同的项目采用的框架不同,下面的演示是采用的pytorch的方式,具体详细的细节,在下一篇关于中文OCR的AI项目实战中,我会详细介绍步骤的,这里采用一个比较简单的pytorch文件来验证

<code>

import

torch

if

__name__ ==

'__main__'

:

print

(

"Support CUDA ?: "

, torch.cuda.is_available()) x = torch.Tensor([

1.0

]) xx = x.cuda()

print

(xx) y = torch.randn(

2

,

3

) yy = y.cuda()

print

(yy) zz = xx + yy

print

(zz)

from

torch.backends

import

cudnn

print

(

"Support cudnn ?: "

,cudnn.is_acceptable(xx))/<code>

执行python test_cuda.py ,如果现实下面的输出,即为验证CUDA通过


零基础玩转AI工程--阿里云虚拟GPU机器vgn5i环境部署

至此,阿里云的vgn5i的环境就算彻底配置完成,下面就是享受自己的AI之旅了,顺便给自己的下一篇文章做个预热:《github最火的中文OCR的AI识别工程--全填坑指南及真实工程优化》


分享到:


相關文章: