/HOME目录规定
- 禁止放大模型
- 大量的数据集,放在/DATA目录的个人空间中
/DATA目录规定
- /data目录个人空间都实名制,使用用户全程不要缩写,最少姓氏不要缩写。例如:
- /data目录如果共用则,使用项目名称。例如:
- project_nlp
- project_user_portrait
- 使用/data目录存储大模型,禁止home目录存储模型
- /data/base_llm_model 存储原始的大模型
- /data/pre_llm_model 存储预训练、微调、蒸馏后的大模型
/NAS目录规定
- /NAS目录个人空间都实名制,使用用户全程不要缩写,最少姓氏不要缩写。例如:
配置说明(二)
- Python:建议个人维护自己的python环境,如Miniconda、virtualenv、pip install --user等方法
- Anaconda: 体积较大,有很多预装Lib用不到,建议安装miniconda
- NGN90服务器有denyhosts攻击保护服务,对于连续输错3次密码的IP地址会直接封禁,如果有忘记密码或者密码有误等情况请联系管理员重置密码,不要连续尝试!(解封很麻烦。。。)
使用规定(一)
- GPU显存占用小于10G的任务,尽量不在A800、A40、RTX5000等大显存服务器上运行,避免计算资源的浪费,可以在3090、2080TI服务器上跑,这些卡的显存都够。
- 如果有多个任务的显存占用在10-20G之间,可以考虑多个任务放在同一张卡上,提高显存利用率。
使用规定(二)
- 账号仅供个人使用,切勿传给他人! 违者立即删除账号
。有项目/研究团队其他成员需要使用服务器可以联系管理员开通账号。
- 执行程序时注意指定GPU,严禁占用所有GPU! 违者立即kill
。在运行程序之前执行export CUDA_VISIBLE_DEVICES=或在代码中指定GPU。
- 不要个人占用过多GPU资源。显存需求不大(7B模型LoRA微调等场景)时请使用NGN90或其他常规服务器。NGN-LLM每人最多占用1块卡,华为/中关村项目有特殊需求时会提前联系正在使用GPU的用户协调释放GPU资源
。
使用规定(三)
- 数据集、模型ckpt、压缩包、HuggingFace模型等占用空间较大的文件一律放在/data1目录下!。HuggingFace加载模型时建议不要使用HF的model_id,因为模型会自动下载到~/.cache目录下,严重占用空间,因此请 将HF模型下载至/data1后使用local_path加载
!
- 管理员会定期检查/home、/data1目录下各用户占用空间大小。当空间不足时,占用空间前3名每人需腾出10G可用空间。否则为维护服务器正常运行,管理员将随机删除这三名同学的部分文件。
- /home目录下尽量只存放代码,超过100M的文件建议放在/data1目录下;一些一次性使用的大文件建议用后即删。
使用规定(四)
- 养成良好的使用习惯
- 实验中如果需要保存模型,尽量只保存best
- 定期清理服务器上不用的项目、数据、代码(提前备份)
- 显存占用不大情况下不必占用多卡
- 数据、模型、日志文件等尽量直接从/data1上读取或者直接保存到/data1上!不要先存在/home上再移动到/data上(容易忘;服务器使用人数较多,如果都直接存在/home上的话会导致高峰期空间不够)
联系人
- 开通账号,sudo权限等请与管理员联系
- 陈誉博(13041210023) \ 余辉(15210893852)