WRY

Where Are You?
You are on the brave land,
To experience, to remember...

0%

DML_401服务集群使用手册及运维记录

使用手册

服务器列表

  • anna.buaadml.info
  • betty.buaadml.info
  • coral.buaadml.info
  • danny.buaadml.info
  • ella.buaadml.info
  • faery.buaadml.info
  • buaadml.info(NFS节点,踏板机,不提供计算服务)
  • honey.buaadml.info
  • i.buaadml.info
  • jack.buaadml.info

GPU使用情况

公网 dml_401

内网 gpu

穿透登陆

询问管理员

高效命令推荐

  • Tmux 高效的终端复用器,可以后台执行程序,窗口多开,同步演示等等,参考链接

  • Htop 进程查看神器,方便kill掉,失去控制的进程,u:选择用户,t:查看进程树,F9:给进程发送信号

运维手册

GPU监控

gpustat

磁盘相关

1
2
$ fdisk -l # 查看需要挂载的磁盘,谨慎格式化
$ mount /dev/xxx /home # 挂载磁盘

LDAP

集群采用了统一的账号管理。

永久关闭与打开桌面

1
2
$ sudo systemctl set-default multi-user.target
$ sudo systemctl set-default graphical.target

NFS

NFS Server端

通过docker部署,使用的镜像为gists/nfs-server,docker理论性能与虚拟机直接配置无异。docker-compose配置文件如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
version: '3'

services:
nfs-server:
image: gists/nfs-server
container_name: nfs-server
privileged: true
ports:
- "2041:2049"
environment:
- NFS_DOMAIN=10.134.138.115/23
- NFS_OPTION=fsid=0,rw,sync,insecure,no_subtree_check,nohide,no_root_squash
volumes:
- /home:/nfs-share
restart: always

客户端

命令行的挂载方式

1
2
3
4
# 挂载
$ mount -v -t nfs -o vers=4,port=2041 buaadml.info:/ /home
# 若已经挂载了NFS,但服务器端挂掉了,想卸载,执行如下命令。实际测试命令有效
$ umount -fl /home # f: 强制卸载, l: 等设备闲置时卸载

通过配置文件/etc/fstab挂载的方式,配置文件追加如下内容

1
buaadml.info:/home   /home   nfs   rsize=8192,wsize=8192,timeo=14,vers=4,port=2041,_netdev    0 0

修改完配置文件后可以使用mount -a命令执行挂载,或者重启,或者重启网卡。(装机脚本配置了在网卡启动时调用挂载命令)

挂载命令卡死的时候,尝试先卸载原有的NFS挂载,参考命令行卸载方式,卸载之后再重新挂载。

警告 确保添加该文件内容正确无误才可重启,否则在重启时有可能卡死到磁盘挂载的位置,系统无法正常开机。个人云服务器遇到过这种情况。不过当时云服务器挂载的是系统盘。

NFS exports 文件参数详解

  1. ro 该主机对该共享目录有只读权限
  2. rw 该主机对该共享目录有读写权限
  3. root_squash 客户机用root用户访问该共享文件夹时,将root用户映射成匿名用户
  4. no_root_squash 客户机用root访问该共享文件夹时,不映射root用户
  5. all_squash 客户机上的任何用户访问该共享目录时都映射成匿名用户
  6. anonuid 将客户机上的用户映射成指定的本地用户ID的用户
  7. anongid 将客户机上的用户映射成属于指定的本地用户组ID
  8. sync 资料同步写入到内存与硬盘中
  9. async 资料会先暂存于内存中,而非直接写入硬盘
  10. insecure 允许从这台机器过来的非授权访问
  11. subtree_check 如果共享/usr/bin之类的子目录时,强制NFS检查父目录的权限(默认)
  12. no_subtree_check 和上面相对,不检查父目录权限
  13. wdelay 如果多个用户要写入NFS目录,则归组写入(默认)
  14. no_wdelay 如果多个用户要写入NFS目录,则立即写入,当使用async时,无需此设置。
  15. hide 在NFS共享目录中不共享其子目录
  16. no_hide 共享NFS目录的子目录
  17. secure NFS通过1024以下的安全TCP/IP端口发送
  18. insecure NFS通过1024以上的端口发送
  19. fsid 使用fsid=0选项的时候只能共享一个目录,这个目录将成为NFS服务器的根目录