常用命令行及详解
Conda 新建环境
Linux
- 将Windows代码格式转换为Linux格式 :
sed -i 's/\r$//' run_week_resnet.sh
测试基本语句
- 查看显存占用 :
watch nvidia-smi
- 输出当前的commit :
git rev-parse HEAD
- 查看当前是否有python进程:
- 打印CPU信息:
lscpu
- 查看IB版本:
ofed_info -s
- 加权限:
chmod +x /data/sunjinfeng/test_data/write_data.sh
- 查看当前目录下所有文件和子目录大小:
du -sh *
- 当前文件夹数量:
ls -la | grep conv2d.weight | wc -l
- 定时任务
crontab -e
Tmux
Git
输出当前的commit :git rev-parse HEAD
git log
提交和修改
git add | 添加文件到暂存区 |
---|---|
git status | 查看仓库当前的状态,显示有变更的文件。 |
git diff | 比较文件的不同,即暂存区和工作区的差异。 |
git commit | 提交暂存区到本地仓库。 |
git reset | 回退版本。 |
git rm | 将文件从暂存区和工作区中删除。 |
git mv | 移动或重命名工作区文件。 |
远程操作
命令 | 说明 |
---|---|
git remote | 远程仓库操作 |
git fetch | 从远程获取代码库 |
git pull | 下载远程代码并合并 |
git push | 上传远程代码并合并 |
git 提交流程
git 设置和取消代理
HuggingFace
OneFlow&Libai
安装 Oneflow&libai
卸载 Oneflow&libai
Docker
基本操作
Docker run 各参数解释
docker run --gpus all -itd --shm-size=16g --ulimit memlock=-1 --ulimit core=0 --ulimit stack=67108864 --privileged --cap-add=IPC_LOCK --name "NCCL_test_sjf" --ipc host --net host -v "/data_32T/home/sunjinfeng/workspace":"/data_32T/home/sunjinfeng/workspace" "ngc/pytorch-21.07:ssh-ib5.3-config-py38"
bash -c "sed -i 's/Port 62620/Port 10035/g' /root/.ssh/config && /usr/sbin/sshd -p 10035 && bash”
NCCL-Test
- 编译NCCL
- NCCL 指令参数详解
- NCCL 单机 1n8g
百度测试
- NCCL 单机 2n8g 规定大小
- NCCL 单机 2n8g 增长步长为2
火山云测试
- 设置 github 的节点
- 运行 libai
- 运行 Megatron
腾讯云测试
-
home 目录:
/data_32T/home/sunjinfeng/workspace
-
new_home 目录:
/data_turbo/home/sunjinfeng/workspace
- 通过 xftp 往 Windows 传输文件
- 运行 2卡 libai
- 运行多卡 Libai
- 运行 Megatron
- 运行多卡 Megatron