DPO算法

alt text
** 一步到位训练对齐模型！ **
关键在于，把训练奖励模型的目标函数转换成只和对齐模型相关，这样我们就可以直接训练对齐模型了

不依赖于其中的奖励模型rθ，⽽是直接利⽤偏好数据来优化原来的语⾔模型。偏好排序数据有2种情况：
1. 2个回答: <prompt_x, chosen_y1, rejected_y2>
2. K（K>2）个回答 (可以拆分成两两pair对)
不再使用强化学习的方法，通过数学推理，将原始的对齐目标进行简化，通过类似sft的方式，用更简单的步骤训练出对齐模型

开始循序渐进解释dpo loss函数是如何从这个总体优化目标中推导而出的，大家在这个过程中依然牢记两件事：绕过奖励模型最大可能简化优化目标。
第一步：有一个总的对齐人类偏好阶段的优化目标函数，它是在外假设我们已经有了一个奖励模型（函数）r的基础上设计的，我们的目标是找到能使这个优化目标最大化的对齐模型π。而这个优化目标依旧是最大化奖励分数，不要偏离sft模型太远