jisoo ai换脸微软：两个AI相互纠错，数学再涨5分

栏目分类

热点资讯

九儿巨乳

你的位置：r级书屋长篇小说 > 九儿巨乳 > jisoo ai换脸微软：两个AI相互纠错，数学再涨5分

jisoo ai换脸微软：两个AI相互纠错，数学再涨5分

2024-12-04 12:06 点击次数：161

jisoo ai换脸微软：两个AI相互纠错，数学再涨5分

栽培 LLM 数学才气的新时势来了——jisoo ai换脸

一个大模子不成，那就两个。让他们相互互助，矫正对方的诞妄。

这便是来自加州大学和微软盘考院的最新盘考效劳：Flow-DPO。通过使用在线学习流（Flow）和平直偏好优化（DPO， Direct Preference Optimization），不错让 LLM 生成愈加详备和精准的推理轨迹。

同期，这种在线多智能体（Agent）的学习表情还能挖掘数据中的深层信息，灵验幸免了东说念主类标注数据不够准确的问题。

咱们先一说念看个例子感受一下。

比如针对底下这说念题：

方程 x + 2y + 3 = 0 的图与方程 ax + 2y + 3 = 0 的图相互垂直。请示 ax + 2y + 3 = 0 中，a 的值是几许？

基准回报是这么的：

方程 x + 2y + 3 = 0 的图形的斜率为 -1/2，因为图形垂直，是以 ax + 2y + 3 = 0 的图形的斜率必须是 x + 2y + 3 = 0 的负倒数。因此，方程 ax + 2y + 3 = 0 的斜率为 2，改写为 2y = -ax - 3，然后双方除以 2，取得 y = -a/2x-3/2。将此与斜率截距表情 y = mx + b 比拟，咱们发现斜率 m 为 -a/2。由于咱们知说念斜率为 2，是以 - a/2= 2。将双方乘以 -2，取得 a = -4，谜底为：-4。

而Flow-DPO 的回报是这么的：

要管制这个问题，咱们需要了解线性方程中垂直线的看法。当两条直线垂直时，它们的斜率互为负倒数。让咱们以斜率 - 截距表情复述给定方程 x + 2y + 3 = O，即 y = -1/2x - 3/2。这告诉咱们直线的斜率是 - 1/2。当今，咱们需要找出方程 ax + 2y + 3 = 0 所暗示的直线的斜率。咱们不错将方程改写成斜率 - 截距表情，即 y = -a/2x - 3/2。这告诉咱们这条直线的斜率是 -a/2。由于两条直线垂直，因此它们的斜率互为负倒数。这意味着 -1/2 * ( -a/2 ) = 1，简化为 a = -4。因此，a 的值为 -4。

让GTP-4o当裁判，针对两个模子的回报分析了一下，它以为谜底 B（FLow-DPO）更好，原因有两点：

1. 看法解说

谜底 A 的回报是："咱们不错诈欺斜率之间的负倒数干系来求解 a "。谜底 B 花时间明确解说了垂直的看法，强调垂直线的斜率是负倒数。这种回报更有考验趣味，不错让读者领会数学背后的推理。

2. 解题念念路明晰

谜底 A 推导出了正确的方程并正确地求解了方程，但引入了一些不消要的时势。

王二小电影

举例，中间时势触及将方程改写为 2y = -ax - 3 和双方除以 2 的中间时势比必要的时势复杂。

谜底 B 立即使用两个方程的斜截距表情简化了时势。它灵验地解说了如何索要斜率，并平直比较了两个等式的斜率，历程更平直，更容易领会。

论断

谜底 B 的解说更明晰、更透顶，既戒备看法和公式，又幸免了不消要的复杂性，这种顺序渐进的时势更易于领会和掌捏。

不错看到，在管制实在数常识题的时候，Flow-DPO 生成的推理历程不仅有更详备的辅导，还幸免了不消要的复杂性，增强了可读性和领会性。

这是怎样作念到的呢？

两个大模子相互互助

针对 LLM 管制数常识题时反馈信息有限、标注数据质地不高级问题，团队提议了一种新的时势。

那便是通过在线学习流（Flow）和平直偏好优化（DPO）学习来生成高质地的推理轨迹。

具体分为 2 个部分：

1. 增量输建设成 Flow（Incremental Output Production Flow）

Flow-DPO 选拔了增量输建设成 Flow，其中有两个独处的 LLM（Answer LLM 和 Stop LLM）协同责任，通过迭代通讯构建管制决策。

具体来说，Answer LLM 一次会生成一个有限的谜底块，而 Stop LLM 则判断部分谜底是否达到最终情状，两个 LLM 通过迭代式学习不休逾越。

Answer LLM 和 Stop LLM 的底层王人是调换的基础模子，但它们使用不同的 LoRA 适配器进行了微调，不错故意完成各自的任务。

何况在查考历程中，Flow-DPO 可竣事更轮廓的为止较小的块大小，天真合适不同的看法和时势，较大的块大小同样于单次模子生成。

2. 在线 Flow 学习与回滚（Online Flow Learning with Rollouts）

Flow-DPO 还和会过在线 DPO 学习和回滚来增强 Flow。

关于每个输入问题，Answer LLM 会生成一个谜底片断，一直不时到产生完好的回报。

然后模子会在每个输出节点进行速即伸开，比如在生成运转谜底片断且 Stop LLM 判断为"否"后，Flow 还会生成另一个谜底片断，基于之前的部分谜底陆续构建。

若是两个谜底在正确性上不同，就把它们动作谜底说话模子的 DPO 对，指引到正确谜底的阿谁片断被选为首选反应。

权贵提高 LLM 数学推理才气权贵提高

为了考据 Flow-DPO 的性能，盘考团队还盘算了精密的考据践诺，具体拓荒如下

数据集：践诺使用了 MetaMath 数据集，该数据集基于于 GSM8K 和 MATH 数据集，并通过数据增强工夫进行了增强。

模子取舍：践诺选拔了两种不同规模的模子：Llama-3-8B-Instruct 和 Phi-3-medium-128k-instruct ( 14B )

Flow 学习阶段：在 Flow 学习阶段，团队使用不同的 LoRA 适配器对 Answer LLM 和 Stop LLM 进行微调，让它们在 DPO 查考中的才气愈加专科。

编译阶段：在编译阶段，网络 Flow 生成的正确推理轨迹和基线模子生成的正确推理轨迹，进行独处评估。

最终收尾深入，使用了 Flow-DPO 之后，Llama3 模子和 Phi3 在数学推理上的才气王人大幅栽培了！

一说念来望望具体收尾分析：

1.渐进考据准确率（Progressive Validation Accuracy）

渐进考据准确率的准确界说，是模子在查考前对输入查考数据的积聚准确度，公式和变量含义如下图所示：

践诺收尾深入，在线 DPO 查考权贵提高了 Flow 的泛化才气。

关于 Llama-3-8B-Instruc 模子，在线 DPO 学习在仅 2000 个查考实例内将 Flow 的性能提高了 20%。关于 Phi-3-medium-128k-instruct 模子，在线 DPO 学习使其准确率提高了 4 个百分点，达到了83%.

2.推理轨迹质地

Flow 生成的推理轨迹在质地上也优于基线和模子生成的正确推理轨迹。

关于 Llama-3-8B-Instruct 模子，Flow 生成的推理轨迹在 GSM8K 和 MATH 数据集上的微调准确率区分提高了 6% 和 7.8%。

关于 Phi-3-medium-128k-instruct 模子，Flow 生成的推理轨迹在两个数据集上的微调准确率区分提高了 1.9% 和 2.1%.

除了刚首先的垂直直线问题，盘考团队还放出了许多实在的解题回报和对比，感兴味的一又友不错稽查论文的更多关联信息。

没意料，不久前还让 LLM 很是头疼的数常识题当今也逾越飞速！

有了优秀的逻辑分析才气，咱们也能期待 LLM 曩昔能管制更多复杂的问题了。

参考一语气：

[ 1 ] https://arxiv.org/abs/2410.22304jisoo ai换脸

上一篇：成人男同最精巧的导弹, 终于露真身, 几发下去打出一派“艨艟墓地”

下一篇：大摆锤裸舞芬奇谈连胜：但愿对咱们来说是个好的驱动咱们的更衣室驱动复原