当前位置: 首页 > article >正文

阿里推理模型来了!Marco-o1 发布即开源

阿里推理模型来了!Marco-o1 发布即开源

原创 JJJohn AGI Hunt 2024年11月22日 13:00 北京

阿里巴巴发布了Marco-o1!

图片

阿里巴巴刚刚发布了一款全新的开源推理模型Marco-o1,它不仅专注于标准答案领域,更致力于解决开放性问题。

图片

这个名为Marco-o1的模型可不是简单的大语言模型。

它通过思维链(CoT)微调蒙特卡罗树搜索(MCTS)反思机制等创新技术,让AI在处理复杂问题时更加得心应手。

为什么Marco-o1如此与众不同?

图片

它不再局限于数学、物理和编程等有标准答案的领域,而是勇敢地迈向了没有标准答案的开放性问题。这就像是让AI从「做选择题」进化到了「写论文」的水平!

技术亮点全解析

Marco-o1的核心优势体现在四个方面:

思维链微调:团队使用开源CoT数据集和自研合成数据对基础模型进行全参数微调,打造出Marco-o1-CoT。

MCTS解决方案扩展:通过将大语言模型与蒙特卡罗树搜索(MCTS)相结合,利用模型输出的置信度来指导搜索,大大扩展了解决方案空间。

创新推理策略:实现了全新的推理行动策略和反思机制(Marco-o1-MCTS Mini-Step),在MCTS框架内探索不同的行动粒度,并引导模型进行自我反思。

突破性翻译应用:首次将大型推理模型(LRM)应用于机器翻译任务,探索多语言和翻译领域的推理时间扩展规律。

图片

实力有多强?数据说话!

研究团队在Qwen2-7B-Instruct的基础上,通过精心设计的数据集进行微调。实验结果显示:

  • MGSM英文数据集:准确率提升6.17%

  • MGSM中文数据集:准确率提升5.60%

最让人惊喜的是,Marco-o1在翻译任务上展现出了惊人的实力。它能够准确理解并翻译俚语表达,将「这个鞋拥有踩屎感」这样的口语化表达优雅地转化为「This shoe has a comfortable sole」。

图片

图片

开箱即用!快速上手指南

想要体验Marco-o1的强大功能?只需要几行代码:

# 直接加载模型
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")

如果你想使用vLLM加速推理,可以直接运行:

./src/talk_with_model_vllm.py

这个来自阿里巴巴国际数字商业部MarcoPolo团队的新作品,正在为AI的推理能力开辟新天地。它不仅能解决标准问题,更重要的是能够处理那些没有标准答案、难以量化的开放性问题。

这或许就是AI走向真正智能的关键一步。毕竟,人类面对的大多数问题,都不会有标准答案

Marco-o1的开源,将为整个AI社区带来新的可能。

相关链接

[1] https://huggingface.co/papers/2411.14405

[2] https://huggingface.co/AIDC-AI/Marco-o1


http://www.kler.cn/a/405517.html

相关文章:

  • 数据库表设计范式
  • 06、Spring AOP
  • [Unity] 关于引入Google SDK以及使用的方法
  • 极客时间《Redis核心技术与实战》开篇词 知识点总结
  • o1的风又吹到多模态,直接吹翻了GPT-4o-mini
  • .NET9 - 新功能体验(一)
  • 飞凌嵌入式T113-i开发板RISC-V核的实时应用方案
  • 记录一个奇怪的前端布局现象
  • 后台通用tag面包屑
  • Figma入门-文字、样式、链接、动作
  • 多联机空调节能集中控制系统
  • 机器学习——数据标注
  • 微搭低代码入门09对象
  • 基于 MONAI 的 3D 图像分割任务2(Brain Tumour 和 SwinUNETR 训练)
  • 低速接口项目之串口Uart开发(七)——如何在FPGA项目中实现自适应波特率串口功能
  • leetcode-24-两两交换链表中的节点
  • 表的增删改查(MySQL)
  • [论文阅读]Can GNN be Good Adapter for LLMs?
  • 如何在Word文件中设置水印以及如何禁止修改水印
  • 【深度学习|onnx】往onnx中写入训练的超参或者类别等信息,并在推理时读取
  • HTML的自动定义倒计时,这个配色存一下
  • 谈学生公寓安全用电系统的涉及方案
  • 乐理的学习(和弦)
  • MongoDB比较查询操作符中英对照表及实例详解
  • 可视化建模与UML《活动图实验报告》
  • 【大数据知识】ClickHouse入门