配置说明(一)

  1. NGN90

    1. IP: 101.6.69.28,端口2334(校外+校内)
    2. CUDA 8.0, cudnn 5.1
    3. 8 * GeForce 1080,Driver Version: 440.82
    4. 已为所有users设置全局cuda path
    5. 数据目录:/data1
  2. NGN-LLM

    1. IP: 101.6.69.28,端口2345(校外+校内)
    2. 4 * A800,Driver Version: 525.116.04
    3. CUDA在各自的conda环境中安装
    4. 数据目录:/data1

配置说明(二)

  1. Python:建议个人维护自己的python环境,如Miniconda、virtualenv、pip install --user等方法
  2. Anaconda: 体积较大,有很多预装Lib用不到,建议安装miniconda
  3. NGN90服务器有denyhosts攻击保护服务,对于连续输错3次密码的IP地址会直接封禁,如果有忘记密码或者密码有误等情况请联系管理员重置密码,不要连续尝试!(解封很麻烦。。。)

使用规定(一)

  1. 账号仅供个人使用,切勿传给他人! 违者立即删除账号
    。有项目/研究团队其他成员需要使用服务器可以联系管理员开通账号。
  2. 执行程序时注意指定GPU,严禁占用所有GPU! 违者立即kill
    。在运行程序之前执行export CUDA_VISIBLE_DEVICES=或在代码中指定GPU。
  3. 不要个人占用过多GPU资源。显存需求不大(7B模型LoRA微调等场景)时请使用NGN90或其他常规服务器。NGN-LLM每人最多占用1块卡华为/中关村项目有特殊需求时会提前联系正在使用GPU的用户协调释放GPU资源

使用规定(二)

  1. 数据集、模型ckpt、压缩包、HuggingFace模型等占用空间较大的文件一律放在/data1目录下!。HuggingFace加载模型时建议不要使用HF的model_id,因为模型会自动下载到~/.cache目录下,严重占用空间,因此请 将HF模型下载至/data1后使用local_path加载
  2. 管理员会定期检查/home、/data1目录下各用户占用空间大小。当空间不足时,占用空间前3名每人需腾出10G可用空间。否则为维护服务器正常运行,管理员将随机删除这三名同学的部分文件
  3. /home目录下尽量只存放代码,超过100M的文件建议放在/data1目录下;一些一次性使用的大文件建议用后即删

使用规定(三)

  1. 养成良好的使用习惯
    1. 实验中如果需要保存模型,尽量只保存best
    2. 定期清理服务器上不用的项目、数据、代码(提前备份)
    3. 显存占用不大情况下不必占用多卡
    4. 数据、模型、日志文件等尽量直接从/data1上读取或者直接保存到/data1上!不要先存在/home上再移动到/data上(容易忘;服务器使用人数较多,如果都直接存在/home上的话会导致高峰期空间不够)

联系人

  1. 开通账号,sudo权限等请与管理员联系
  2. 陈誉博(13041210023) \ 余工(15210893852)

results matching ""

    No results matching ""