小模型也能数学推理！微调Mistral-7B实现86.81%准确率

数学应用题求解一直是小型语言模型（SLM）面临的挑战之一。以往的研究表明，要在GSM 8K基准测试中实现80%以上的准确度，需要一个庞大的模型，拥有340亿个参数。为了在较小的模型上达到这一水平，研究人员通常会使用外部工具或集成多个模型的输出，以获得更准确的结果，但这也会增加成本。

然而，最近微软的研究人员提出了一种全新的方法，他们基于Mistral-7B、70亿参数量的小型语言模型Orca-Math，在GSM 8k上实现了惊人的86.81%准确率，而无需集成多个模型或使用验证器、代码执行等外部工具。

Orca-Math的关键特性包括使用多个智能体创建高质量合成数据集，这些智能体合作创建数据，并通过迭代学习技术，使SLM能够练习解决问题，接收反馈并学习。通过有监督微调训练，Orca-Math在GSM 8k pass@1指标上达到了81.50%，并通过迭代偏好学习，实现了86.81%的pass@1。

这一成果让Orca-Math超越了其他更大型号的模型，同时在使用更少数据的情况下也表现出色。研究人员通过构建种子集合、智能体合作生成数据集、迭代学习等方法，为小型模型赋予了强大的数学推理能力。

这项研究为小型语言模型的发展开辟了新的道路，展示了「专业智能体指导」在数学推理领域的巨大潜力。Orca-Math的成功不仅为学术界带来了新的启示，也为未来的人工智能发展指明了一条光明的道路。

算法调用实验数学推理视频生成模型专业智能体指导