lora原理和代码实现 本篇文章结合代码来介绍大模型高效微调技术LoRA,并给出简单的代码实现。 什么是LoRALoRA是一种高效的参数微调技术,引入可训练的低秩分解矩阵来调整模型参数,来适应特定的任务和领域 为什么需要LoRA ft整个大模型训练成本过高 大模型中参数量巨大,可能是冗余的,参数有更小的内在维度 LoRA是如何实现的LoRA的基本原理在LoRA的实现中,我们引入了两个低秩矩阵A和B。在训练过程中,我们冻 2025-03-23 #Lora #代码 #笔记
刷题速记 206反转链表:重点在于真正理解翻转的过程,才能利用双指针(迭代)或者递归法来写出翻转链表。重点在于先定义好需要新建联系的两个节点 pre = None和cur = Head, 然后利用temp来保存一下cur的下一个节点cur.next(也就是cur下次要移动到的地方,而pre的下个要移动的地方是cur,就不用新定义变量来保存了) 数组中的第K个最大元素:有时间复杂度限 2025-03-21 #笔记 #刷题
模型训练显存优化 - 梯度累积 在深度学习的训练过程中,我们经常会遇到显存限制的问题,尤其是在大规模模型训练时,直接使用大批次(Large Batch)进行梯度计算往往会导致显存溢出(Out of Memory, OOM)。为了解决这个问题,梯度累积(Gradient Accumulation) 技术应运而生,它允许在 小批次(Micro-Batch) 的基础上 逐步累积梯度,最后模拟出 等效的大批次(Large Batch), 2025-03-16 #模型训练 #显存优化
词汇巫师演示视频 1<video src="D:\MyBlogs\source\_posts\video\6d097b91773ba69dc0e50264a03d93b3.mp4" position= "absolute" width="100%" height="100%" controls="controls&quo 2025-03-12
DPO算法** 一步到位训练对齐模型! **关键在于,把训练奖励模型的目标函数转换成只和对齐模型相关,这样我们就可以直接训练对齐模型了 不依赖于其中的奖励模型rθ,⽽是直接利⽤偏好数据来优化原来的语⾔模型。偏好排序数据有2种情况: 2个回答: <prompt_x, chosen_y1, rejected_y2> K(K>2)个回答 (可以拆分成两两pair对) 不再使用强化 2025-03-04
Attention计算公式为什么要除以根号dk? 控制数值范围如果Q和K独立同分布,均值为0,方差为1。点积结果 Q·K^T 也会随着维度d的增大而增大。(并且方差为d) 稳定梯度 softmax作用于一个输入向量x,将其转换成一个概率分布。在softmax函数中,如果x的差距很大,那么softmax输出的概率会接近0或1,导致梯度很小。 进行缩放,可以降低方差除以根号d,可以将方差缩放 2025-03-03
大模型架构图(以decoder为例) 可以发现主要是几个模块的组合 位置编码 注意力层 MLP层 前馈神经网络 归一化层 而各种transformer的改进,就是针对上面这些模块的改进比如,各种升级点 位置编码:从原始的绝对位置编码 -> rope 注意力层:MHA -> GQA -> MLH MLP层:FFN -> swiglu 归一化层:layernorm -&g 2025-02-14
1. 从列表中删除元素 pop 方法 作用:从列表中删除指定索引位置的元素,并返回该元素。 参数:需要删除的元素的索引(可选,默认为 -1,即最后一个元素)。 返回值:被删除的元素。 remove 方法 作用:从列表中删除指定值的元素。 参数:需要删除的元素的值。 返回值:None。 2. 从列表中增加元素 append 方法可以增加嵌套列表12from_.extend([(i, j)] * 2025-02-11
动态规划刷题 本章结合代码随想录进行动态规划刷题总结 动态规划五部曲 确定dp数组(dp table)以及下标的含义 确定递推公式 dp数组如何初始化 确定遍历顺序 举例推导dp数组 解不出题的灵魂三问 这道题目我举例推导状态转移公式了么? 我打印dp数组的日志了么? 打印出来了dp数组和我想的一样么? 开始炒股买卖股票的最佳时机121. 买卖股票的最佳时机题目描述给定一个数组 prices ,它的第 i 2025-02-09 #代码 #动态规划 #力扣