模型训练的并行策略 起源于研究生时上分布式课程完全没搞懂,老师念课本讲闲话,压根不知道他在说啥。如今被回旋镖击中,重新整理一下训练大模型时的并行策略。参考博文如下,以下内容对我很有启发: https://mp.weixin.qq.com/s/_jdATeFy0h_nfDt_bIYTfQ 数据并行 Data Parallelism理论就是在每个GPU上都放置一份完整模型,将数据进行划分,分配到不同GPU上。比如有一 2025-04-07 #并行 #分布式 #模型训练
服务器公私钥生成 连接服务器连了好多次,每次都忘记具体操作步骤。现在有一台新的服务器,记录一下。 服务器公私钥生成操作步骤记录 对于windows系统,打开powershell 输入命令:ssh-keygen -t rsa -C “your_email@examp 2025-03-25 #服务器 #公私钥
词汇巫师演示视频 1<video src="D:\MyBlogs\source\_posts\video\6d097b91773ba69dc0e50264a03d93b3.mp4" position= "absolute" width="100%" height="100%" controls="controls&quo 2025-03-12
linux服务器之间通过syncthing同步 背景拥有2台服务器,想在服务器之间同步某个文件夹的数据,实现丝滑工作 步骤1:安装syncthing如果是ubuntu,可以通过apt安装 1sudo apt install syncthing (其他系统可以参考官方文档) 启动syncthing 1syncthing 安装好之后输入syncthing,会启动syncthing,自动打开浏览器。稍后在浏览器中进行配置就好 【注意】在两台服务器上都 2025-01-03 #syncthing #linux #服务器 #数据同步
在服务器上git clone github项目的过程 在服务器上与本地clone项目对比还是有点区别的,主要在于git安装下载的权限不足,还有生成SSH key的步骤。 一 安装git1.作为服务器上的非root用户,下载git安装包。(这里的版本是2.34.1,可以参考官网更换为更高版本号的git 12wget https://www.kernel.org/pub/software/scm/git/git-2.34.1.tar.gz 2.解压 1 2024-11-23
移动硬盘分区打不开,显示函数不正确 某天移动硬盘突然打不开文件了,显示函数不正确,以为硬盘被我硬插拔弄坏了。 如果你的是装在硬盘壳里的,没有装在电脑里,可以打开硬盘壳看看,卡是不是松了。 如果松了就重新插回去就好啦! 2024-11-23
如何在vscode中对在服务器上多卡运行的bash脚本进行debug? ? 问题描述使用vscode可以很方便地添加断点,进行代码调试。 在使用服务器时,我们的python代码通常是通过bash脚本来执行的,那么如何进行debug呢? 待运行的bash 脚本示例前半段定义了一些参数,后半段是执行python代码 123456789101112export CUDA_VISIBLE_DEVICES=1,2model_path=/models/Mistral-7B-Ins 2024-11-23
如何在huggingface上申请下载使用llama2/3模型 1. 在对应模型的huggingface页面上提交申请搜索对应的模型型号 登录huggingface,在模型详情页面上,找到这个表单,填写内容,提交申请。需要使用梯子,country填写梯子的位置吧(比如美国) 等待一小时左右,会有邮件通知。 创建access token 在huggingface上登录后,点击头像,选择setting,点击左侧的access tokens,新建一个token 2024-11-23
如何把服务器代码上传至github 0. 准备本教程适用于已经在服务器上下载好了git并和github账号进行关联,如果没有请先移步至这个教程 1. 单击new在github上新建项目 输入项目名称,建好后会有一串类似于git@githubxxx.git的项目路径( 2024-11-23
服务器上虚拟环境里的jupyter notebook连接不上kernal,显示not connection to kernel 问题描述1在服务器上新建了一个虚拟环境,下载了相关的包后,使用以下代码新建了kernal 123pip install ipykernelpython -m ipykernel install --user --name=pytorch-0.3.0 然后输入jupyter notebook启动,却显示not connection to kernel 解决1是因为的Jupyter notebook 2024-11-23