服务器的硬件配置和使用注意

  • GPU:GTX1080TI AERO 11G(4块)
  • CPU:Intel E5-2678 V3 (2块)
  • 内存:DDR4 RECC 共64G
  • 硬盘:机械硬盘 4T(2块)SSD 500G

使用时候个人觉得要注意:

  • 先观察GPU有没有人在使用,如果贸然使用,可能会杀死别人在跑的程序
  • 安装软件,注意选择版本,比如tensorfolw不同版本对cuda和cudnn的版本要求不一样,一般会根据cuda来安装相应版本的深度学习框架
  • 谨慎使用root权限,可以的话,使用普通用户权限
  • 能不重启服务器,就不要重启,重启是使用whops aux 指令,查看最近用户登入时间和程序运行
  • python使用的时候,使用virtualenv,anaconda等工具,管理好包的安装

服务器管理

用户管理

如果需要使用,找root管理员开账号,相关常用的命令有

1
2
3
4
#添加用户,
adduser 你的用户名
#切换用户
su 需要切换的用户名

磁盘管理

查看磁盘空间命令如下

1
df -h

/ 目录挂载的是SSD,所以只有500G内存。/home/sdb,/home/sdc 分别挂载的是2块4T硬盘

请选择到/home/sdb或者/home/sbc下创建自己的目录,并且在自己创建目录下存放数据,不要默认在/home/你的用户名 文件下操作,这样很快占满硬盘空间。如果需要方便,可以创建软链接,指向某个位置。

综上,比如说开启新用户(sample)的流程为

1
2
3
4
5
6
7
#添加用户,会需要你设置密码,密码设置好后,回车就行
adduser sample
#到4T硬盘挂载目录下创建你的目录
mkdir /home/sdb/sample_space
#创建软连接到用户目录下
ln -s /home/sdb/sample_space /home/sample
#可以方便地 在/home/sample/sample_space访问

服务器连接

ssh连接

使用ssh连接,没有界面,但是会十分流畅

在windows上,可以使用软件进行管理连接,比如说xshell

在linux上,可以在终端之间输入:ssh 用户名@IP地址

在实验室网络内连接IP:192.168.1.102:22(数据传输很快)

在实验室网络外连接IP:202.120.37.2:5900(数据传输较慢)

vnc连接

使用vnc连接,可以使用界面(推荐使用xface4桌面)

服务器的vnc安装过程(读一下有助于更好使用!)

widows和linux都可以下载客户端 。使用十分简单,但是在网络不是很畅通的时候,会比较卡。

anaconda3中有dbus-launch,会和vnc桌面发生冲突,可能导致终端无法打开,所以不要把anacoda3的path添加到环境变量中。

启动后,在各个桌面下可以使用同样ID和密码进行连接,下载客户端即可连接。

在实验室网络内连接时,IP为:192.168.1.102

在实验室网络外连接时,IP为:202.120.37.2

GPU使用

GPU使用情况查看

1
2
#输入下面命令
nvidia-smi
GPU使用情况
GPU使用情况

图片上方是4块GPU信息,编号为0、1、2、3

  • Volatile GPU-UTIL :表示单块GPU使用效率,数值越大说明代码写的很高效
  • Process GPU是占用的GPU和相关进程

如果GPU 0 有人使用了5G的显存,然而你想用10G,程序会出现报错

GPU使用指定

1
2
3
4
5
6
7
#比如原来执行python指令为,会使用所用的GPU
python test.py
#修改后,假如使用第23块GPU
CUDA_VISIBLE_DEVICES=1,2 python test.py
#以上是在命令行运行时候设置,也可以再python代码中设置,在代码开头添加
import os
os.environ['CUDA_VISIBLE_DEVICES']='2,3'