温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

怎么用Docker快速部署GPU环境

发布时间:2021-12-03 09:24:56 来源:亿速云 阅读:470 作者:小新 栏目:系统运维

这篇文章主要为大家展示了“怎么用Docker快速部署GPU环境”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“怎么用Docker快速部署GPU环境”这篇文章吧。

在 Linux 服务器上使用 GPU 跑深度学习的模型很正常不过。如果我们想用 Docker 实现同样的需求,就需要做些额外的工作。本质上就是我们要在容器里能看到并且使用宿主机上的显卡。在这篇文章里我们就介绍一下 Docker 使用 GPU 的环境搭建。

Nvidia 驱动

某些命令以 Ubuntu 作为示例。首先宿主机上必现安装 Nvidia 驱动。

这里推荐从 Nvidia 官网下载脚本安装,安装和卸载都比较方便并且适用于任何 Linux 发行版,包括 CentOS,Ubuntu 等。NVIDIA Telsa GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如 kernel-devel-$(uname -r) 等。

安装 gcc 和 kernel-dev

$ sudo apt install gcc kernel-dev -y

安装 Nvidia 驱动

  1.  访问 https://www.nvidia.com/Download/Find.aspx

  2.  选择对应操作系统和安装包,并单击 [SEARCH] 搜寻驱动,选择要下载的驱动版本

怎么用Docker快速部署GPU环境

  3.  在宿主机上下载并执行对应版本安装脚本

$ wget https://www.nvidia.com/content/DriverDownload-March3009/confirmation.php?url=/tesla/450.80.02/NVIDIA-Linux-x86_64-450.80.02.run&lang=us&type=Tesla  $ chmod +x NVIDIA-Linux-x86_64-450.80.02.run && ./NVIDIA-Linux-x86_64-450.80.02.run

  4.  验证

使用 nvidia-smi 命令验证是否安装成功,如果输出类似下图则驱动安装成功。

怎么用Docker快速部署GPU环境

CUDA 驱动

CUDA(Compute Unified Device Architecture)是显卡厂商 NVIDIA 推出的运算平台。CUDA™是一种由 NVIDIA 推出的通用并行计算架构,该架构使 GPU 能够解决复杂的计算问题。它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。这里安装的方式和显卡驱动安装类似。

  1.  访问官网下载对应版本安装包,https://developer.nvidia.com/cuda-toolkit-archive

怎么用Docker快速部署GPU环境

  2.  配置环境变量

$ echo 'export PATH=/usr/local/cuda/bin:$PATH' | sudo tee /etc/profile.d/cuda.sh   $ source /etc/profile

nvidia-docker2

Docker 的安装这里就不展开了,具体查看官方文档非常详细。

这里我们就直接介绍安装 nvidia-docker2.

既然叫 nvidia-docker2 就有 nvidia-docker1 就是它的 1.0 版本目前已经废弃了,所以注意不要装错。

这里先简单说一下 nvidia-docker2 的原理,nvidia-docker2 的依赖由下几部分组成.

  •  libnvidia-container

  •  nvidia-container-toolkit

  •  nvidia-container-runtime

怎么用Docker快速部署GPU环境

nvidia-container-runtime 是在 runc 基础上多实现了 nvidia-container-runime-hook (现在叫 nvidia-container-toolkit),该 hook 是在容器启动后(Namespace已创建完成),容器自定义命令(Entrypoint)启动前执行。当检测到 NVIDIA_VISIBLE_DEVICES 环境变量时,会调用 libnvidia-container 挂载 GPU Device 和 CUDA Driver。如果没有检测到 NVIDIA_VISIBLE_DEVICES 就会执行默认的 runc。

下面分两步安装

  1.  设置 repository 和 GPG key

$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)  $ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -  $ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

  2.  安装

$ sudo apt-get update  $ sudo apt-get install -y nvidia-docker2  $ sudo systemctl restart docker

  3.  验证

执行以下命令:

$ docker run --rm --gpus all nvidia/cuda:10.2-base nvidia-smi

如果输出跟直接在宿主机上执行 nvidia-smi 一致则说明安装成功。如果跑的深度学习模型使用的是 tensorflow 可以在容器里执行:

import tensorflow as tf  tf.contrib.eager.num_gpus()

如果输出了宿主机上的 Nvidia 显卡数量,则模型能使用到显卡加速。如果使用的是 pytorch 可以在容器里执行:

import torch  torch.cuda.is_available()

如果输出 True 证明环境也成功了,可以使用显卡。

  4.  使用示例

  • 使用所有显卡 

$ docker run --rm --gpus all nvidia/cuda nvidia-smi   $ docker run --rm --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=all nvidia/cuda nvidia-smi
  •  指明使用哪几张卡 

$ docker run --gpus '"device=1,2"' nvidia/cuda nvidia-smi   $ docker run --rm --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=1,2 nvidia/cuda nvidia-smi

以上是“怎么用Docker快速部署GPU环境”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI