配置说明(一)
NGN90
- IP: 101.6.69.28,端口2334(校外+校内)
- CUDA 8.0, cudnn 5.1
- 8 * GeForce 1080,Driver Version: 440.82
- 已为所有users设置全局cuda path
- 数据目录:/data1
NGN-LLM
- IP: 101.6.69.28,端口2345(校外+校内)
- 4 * A800,Driver Version: 525.116.04
- CUDA在各自的conda环境中安装
- 数据目录:/data1
配置说明(二)
- Python:建议个人维护自己的python环境,如Miniconda、virtualenv、pip install --user等方法
- Anaconda: 体积较大,有很多预装Lib用不到,建议安装miniconda
- NGN90服务器有denyhosts攻击保护服务,对于连续输错3次密码的IP地址会直接封禁,如果有忘记密码或者密码有误等情况请联系管理员重置密码,不要连续尝试!(解封很麻烦。。。)
使用规定(一)
- 账号仅供个人使用,切勿传给他人! 违者立即删除账号
。有项目/研究团队其他成员需要使用服务器可以联系管理员开通账号。 - 执行程序时注意指定GPU,严禁占用所有GPU! 违者立即kill
。在运行程序之前执行export CUDA_VISIBLE_DEVICES=或在代码中指定GPU。 - 不要个人占用过多GPU资源。显存需求不大(7B模型LoRA微调等场景)时请使用NGN90或其他常规服务器。NGN-LLM每人最多占用1块卡,华为/中关村项目有特殊需求时会提前联系正在使用GPU的用户协调释放GPU资源
。
使用规定(二)
- 数据集、模型ckpt、压缩包、HuggingFace模型等占用空间较大的文件一律放在/data1目录下!。HuggingFace加载模型时建议不要使用HF的model_id,因为模型会自动下载到~/.cache目录下,严重占用空间,因此请 将HF模型下载至/data1后使用local_path加载
! - 管理员会定期检查/home、/data1目录下各用户占用空间大小。当空间不足时,占用空间前3名每人需腾出10G可用空间。否则为维护服务器正常运行,管理员将随机删除这三名同学的部分文件。
- /home目录下尽量只存放代码,超过100M的文件建议放在/data1目录下;一些一次性使用的大文件建议用后即删。
使用规定(三)
- 养成良好的使用习惯
- 实验中如果需要保存模型,尽量只保存best
- 定期清理服务器上不用的项目、数据、代码(提前备份)
- 显存占用不大情况下不必占用多卡
- 数据、模型、日志文件等尽量直接从/data1上读取或者直接保存到/data1上!不要先存在/home上再移动到/data上(容易忘;服务器使用人数较多,如果都直接存在/home上的话会导致高峰期空间不够)
联系人
- 开通账号,sudo权限等请与管理员联系
- 陈誉博(13041210023) \ 余工(15210893852)