服务器的硬件配置和使用注意

GPU：GTX1080TI AERO 11G（4块）
CPU：Intel E5-2678 V3 （2块）
内存：DDR4 RECC 共64G
硬盘：机械硬盘 4T（2块）SSD 500G

使用时候个人觉得要注意：

先观察GPU有没有人在使用，如果贸然使用，可能会杀死别人在跑的程序
安装软件，注意选择版本，比如tensorfolw不同版本对cuda和cudnn的版本要求不一样，一般会根据cuda来安装相应版本的深度学习框架
谨慎使用root权限，可以的话，使用普通用户权限
能不重启服务器，就不要重启，重启是使用who和ps aux 指令，查看最近用户登入时间和程序运行
python使用的时候，使用virtualenv，anaconda等工具，管理好包的安装

服务器管理

用户管理

如果需要使用，找root管理员开账号，相关常用的命令有

#添加用户，
adduser 你的用户名
#切换用户
su 需要切换的用户名

磁盘管理

查看磁盘空间命令如下

df -h

/ 目录挂载的是SSD，所以只有500G内存。/home/sdb，/home/sdc 分别挂载的是2块4T硬盘

请选择到/home/sdb或者/home/sbc下创建自己的目录，并且在自己创建目录下存放数据，不要默认在/home/你的用户名文件下操作，这样很快占满硬盘空间。如果需要方便，可以创建软链接，指向某个位置。

综上，比如说开启新用户（sample）的流程为

#添加用户，会需要你设置密码，密码设置好后，回车就行
adduser sample
#到4T硬盘挂载目录下创建你的目录
mkdir /home/sdb/sample_space
#创建软连接到用户目录下
ln -s /home/sdb/sample_space /home/sample
#可以方便地 在/home/sample/sample_space访问

服务器连接

ssh连接

使用ssh连接，没有界面，但是会十分流畅

在windows上，可以使用软件进行管理连接，比如说xshell

在linux上，可以在终端之间输入：ssh 用户名@IP地址

在实验室网络内连接IP:192.168.1.102:22（数据传输很快）

在实验室网络外连接IP:202.120.37.2:5900（数据传输较慢）

vnc连接

使用vnc连接，可以使用界面（推荐使用xface4桌面）

服务器的vnc安装过程(读一下有助于更好使用！)

widows和linux都可以下载客户端。使用十分简单，但是在网络不是很畅通的时候，会比较卡。

anaconda3中有dbus-launch，会和vnc桌面发生冲突，可能导致终端无法打开，所以不要把anacoda3的path添加到环境变量中。

启动后，在各个桌面下可以使用同样ID和密码进行连接，下载客户端即可连接。

在实验室网络内连接时，IP为：192.168.1.102

在实验室网络外连接时，IP为：202.120.37.2

GPU使用

GPU使用情况查看

1 2	#输入下面命令 nvidia-smi

图片上方是4块GPU信息，编号为0、1、2、3

Volatile GPU-UTIL ：表示单块GPU使用效率，数值越大说明代码写的很高效
Process GPU是占用的GPU和相关进程

如果GPU 0 有人使用了5G的显存，然而你想用10G，程序会出现报错

GPU使用指定

#比如原来执行python指令为，会使用所用的GPU
python test.py
#修改后，假如使用第2、3块GPU
CUDA_VISIBLE_DEVICES=1,2 python test.py
#以上是在命令行运行时候设置，也可以再python代码中设置，在代码开头添加
import os
os.environ['CUDA_VISIBLE_DEVICES']='2,3'

IICEE526服务器管理

2018-04-04
服务器运维