Ubuntu 16.04 cuda + pytorch

Ubuntu 16.04 cuda + pytorch

1. 安装 Ubuntu 16.04

这一步就不说了,网上很多教程,几点建议:

  1. 请不要尝试 Ubuntu 18.04,新版本 bug 比较多
  2. 下载地址: Ubuntu 16.04 Desktop (64-bit)
  3. 系统语言选英文,主要是有助于 shell 切换目录
  4. 请设置开机密码

安装好可以更新一下,

sudo apt-get update
sudo apt-get upgrade

2. 安装 Nividia GPU driver

我的 GPU 是 Gtx 1060 6G 版本,安装步骤如下:

  1. 添加内核补丁 liquorix,Ubuntu 官方的内核为 4.13版本,和 驱动有冲突,会造成上面的问题,这里本人亲自踩坑.
    sudo add-apt-repository ppa:damentz/liquorix
    sudo apt update
    sudo apt install linux-image-liquorix-amd64 linux-headers-liquorix-amd64 firmware-linux-free
  2. 添加 GPU driver repository
    sudo add-apt-repository ppa:graphics-drives/ppa
    sudo apt install nvidia-387*

    这里提醒下,

    • 如果去 Nvidia 官网下载 .run 或者 .bin 安装驱动,非常容易死机,强烈不推荐
    • 也不安装 系统的addtional driver提供的384.111驱动或其他版本驱动,非常容易不成功
    • 我当时安装的是 387.34 驱动,可能不同的机器会有所不同,这里没有测试

    如果安装失败,可以查看日志 /var/log/nvidia-installer.log
    比如后面提到 cuda 安装时,如果直接安装 cuda 自带的驱动,可能会出错,这里贴出错误信息:

    Building module:
    cleaning build area....
    'make' -j4 NV_EXCLUDE_BUILD_MODULES='' KERNEL_UNAME=4.13.0-32-generic modules...........(bad exit status: 2)
    ERROR (dkms apport): binary package for nvidia: 387.26 not found
    Error! Bad return status for module build on kernel: 4.13.0-32-generic (x86_64)
    Consult /var/lib/dkms/nvidia/387.26/build/make.log for more information.

    显然出错原因是因为 387.26 驱动和 内核不兼容,需要安装其他驱动
    另外, 额外知识补充:

    1. opengl 是一套 GPU 使用协议,和它竞争的是 Microsoft 的 Diret ,以及最新的 Vulkan

    2. mesa, nvidia, amd, intel 都提供各自的 opengl 具体实现方案,其中 mesa 提供的是完全软件层面的实现,没有和物理显卡打交道

  3. 重启电脑测试
    如果开机在登陆界面输入密码后,无法登陆,几乎可以确定驱动安装失败 ,卸载步骤如下 (这里时间太久远,没有测试,参考 这里 )

    1. Ctrl + Alt + F1 进入管理台 ,输入用户名和密码登陆

    2. dpkg -l | grep -i nvidia 查看所有 nvidia 安装包

    3. sudo apt-get remove --purge nvidia-* 卸载所有的驱动

    4. sudo apt-get install ubuntu-desktop 重新安装 桌面

    5. sudo rm /etc/X11/xorg.conf 删除 xorg 配置文件

    6. 将 nouveau 驱动 (就是前面提到的 mesa 完全软件层面实现 opengl ) 解除屏蔽
      echo 'nouveau' | sudo tee -a /etc/modules

    如果进入系统,Ctrl + Alt + T 打开 terminal ,输入 nvidia-smi ,如果出现显存使用情况,说明安装成功; 或者系统软件有 nvidia setting ,点开可以看到 GPU 运行状态。

3. 安装 cuda 9.2

官网依次选择: Linux -> x86_64 -> Ubuntu -> 16.04 -> runfile (local)。

这里给出下载地址: https://developer.nvidia.com/compute/cuda/9.2/Prod/local_installers/cuda_9.2.88_396.26_linux

请需要注意: 千万别安装 cuda 自带的 gpu driver,这里只安装 cuda toolkit 和 cuda samplecode

安装步骤如下: (xxx.run 就是前面下载的 安装包)

sudo sh xxxx.run 

出现信息,安装前面的说明来,即可

安装结束,测试 cuda ,步骤如下:

  1. Ctrl + Alt + T 打开 terminal

  2. 安装 opengl 头文件,用于后面的编译

    sudo apt-get install freeglut3-dev libx11-dev libgles2-mesa-dev
  3. 切换到 cuda samplecode 根目录

  4. 执行 make -j4 ,这一步一般耗时较长,可能需要十几分钟,

  5. 结束后切换到 cuda samplecode 根目录 的 bin 子目录,里面有所有的测试程序,比如 :
    ./deviceQuery , ./nbody

4. 安装 Anaconda + pytorch

Anaconda 下载地址: https://repo.anaconda.com/archive/Anaconda3-5.1.0-Linux-x86_64.sh

这里选择最新的Python 3 版本的即可,安装过程很简单

安装 Pytorch

conda install pytorch torchvision -c pytorch

如果需要其他库,使用 pip 或者 conda 安装即可

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.

%d 博主赞过: