大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!
大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!DeepSeek-V3上线即开源;OpenAI 发布高级推理模型 o3https://mp.weixin.qq.com/s/9qU_zzIv9ibFdJZ5cTocOw?token=47960959&lang=zh_CN
「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。
国产DeepSeek-V3首个版本上线并同步开源
首位全职提示词工程师出新题,DeepSeek V3完全答对
DeepSeek发布6710亿参数模型DeepSeek-V3首个版本并同步开源,在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。DeepSeek-V3在Aider多语言测试排行榜中,以48.4分排名第二,仅次于OpenAI o1的61分。而在LiveBench的测评中,DeepSeek v3是最强的开源大语言模型,并在非推理模型中,排名第二。
详细地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main
IBM推出开源大型语言模型Granite3.1
能处理最多128,000个令牌。
IBM开源大语言模型 Granite 3.1版本现已发布,新版本的模型经过重新设计,采用了更加密集的架构,经12种语言和116种编程语言数据集训练,处理12万亿令牌。开发者可通过Hugging Face访问,助力各行业数字化转型,推动AI技术发展。更新意味着Granite在处理复杂文本和任务时的能力得到增强,Granite 3.1包括8B和2B两款不同规模的模型,均可以检测到代理工作流程中可能出现的幻觉,为函数调用提供与 RAG 相同的责任和信任,未来几个月,IBM 将继续发布 Granite 3 系列的更新模型和功能,计划于 2025 年第一季度发布新的多模式功能。
详情链接:https://huggingface.co/collections/ibm-granite/granite-31-language-models-6751dbbf2f3389bec5c6f02d
OpenAI 发布高级推理模型 o3
计划明年初发布o3系列,先面向安全研究人员开放预览。
12月21日,OpenAI发布迄今最强推理模型o3,共有o3和精简版o3-mini两个版本。o3在软件工程测试中准确率比o1高近47%,竞赛数学测评的准确率比o1高15%,人类博士专家级生化物测试中准确率比o1高近13%,AGI相关测试中,o3最佳成绩87.5,超过人类水平门槛85,显示迈向类人智能取得突破,对比之下,GPT-3的评测结果为0%,GPT-4o为5%,而o3一举将成绩提升到87.5%,o3的最佳成绩超过了标志着达到人类水平的门槛85%。
OpenAI计划明年初发布o3系列模型,安全研究人员可以注册访问o3 和 o3-mini的预览。
详情链接:https://openai.com/index/early-access-for-safety-testing/#how-to-apply
百川智能发布全链路领域增强大模型Baichuan4-Finance
显著提高了金融场景的整体可用性
百川智能于2024年12月23日正式发布全链路领域增强大模型Baichuan4-Finance。该模型通过高质量金融数据集和行业首创的领域自约束训练方案,实现了金融能力和通用能力的同步提升,显著提高了金融场景的整体可用性。
Baichuan4-Finance在多个评测体系中表现优异,在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%,整体准确率93.62%,领先GPT-4o和XuanYuan3-70B-Chat,超出GPT-4o近20%。
详情链接:https://platform.baichuan-ai.com/finPage
阶跃星辰发布图像生成模型Step-1X-Medium
针对东方人物形象进行深度优化,能够更好地捕捉国风人物神韵
12月26日阶跃星辰官方推出 Step-1X-Medium 增强 AI 模型,显著提升生成速度、理解能力、细节质感以及创作功能,目标成为创作者的得力助手,全新升级的 Step-1X-Medium 能够更好地理解用户输入的指令,生成更契合指令描述的图像作品。针对东方人物形象进行了深度优化,能够更好地捕捉国风人物神韵,同时,Step-1X-Medium 推出了“垫图”功能,创作者只需上传一张基础图片,模型就可以快速理解画面结构和风格,在原图的创意基础上根据指令进行细节增强、风格转化或进行局部精修的操作。
详情链接:https://platform.stepfun.com/
阿里通义千问Qwen团队宣布推出 QVQ-72B-Preview开源视觉推理模型
模型专注增强视觉推理
12 月 25 日,阿里通义千问 Qwen 团队宣布基于 Qwen2-VL-72B 构建,推出 QVQ-72B-Preview 开源视觉推理模型,能够像物理学大师一样,面对复杂的物理问题,沉着冷静地通过逻辑推理找到解决方案。测试结果显示,QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。
此外,在MathVista.MathVision.OlympiadBench三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。但存在语言混合、递归推理、安全伦理等问题,无法完全替代Qwen2-VL-72B。
详情链接:https://huggingface.co/spaces/Qwen/QVQ-72B-preview
腾讯研究推出新型翻译模型 DRT-o1
重塑文学文本翻译
12月26日,腾讯研究院推出了一款新型AI模型——DRT-o1系列,该模型采用长思维链(CoT)技术,旨在提高文学作品的翻译质量,特别是在处理比喻和隐喻等修辞手法方面。研究团队从古腾堡计划中筛选出400本英文公共领域书籍,提取了577600个句子,并从中挑选出63000个包含明喻和隐喻的句子,用于训练DRT-o1模型。
DRT-o1模型采用了一种创新的多智能体框架,包括翻译员、顾问和评估员三个角色。这一框架通过关键词翻译、初步翻译和翻译精炼循环三个步骤,不断提升翻译质量。最终的翻译结果由GPT-4o进行润色,确保流畅性和可读性。DRT-o1系列包括DRT-o1-7B和DRT-o1-14B两个版本,实验结果显示,这两个版本在翻译质量上均有显著提升。
详情链接:https://github.com/krystalan/DRT-o1
智谱AI旗下GLM-PC基座模型CogAgent-9B已开源
让 AI 智能体“看懂”屏幕
智谱技术团12月26日发宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 训练,专用于智能体(Agent)任务。该模型仅需屏幕截图作为输入(无需 HTML 等文本表征),便能根据用户指定的任意任务,结合历史操作,预测下一步的 GUI 操作。 得益于屏幕截图和 GUI 操作的普适性,CogAgent 可广泛应用于各类基于 GUI 交互的场景,如个人电脑、手机、车机设备等。
GitHub仓库:https://github.com/THUDM/CogAgent
HuggingFace模型库:https://huggingface.co/THUDM/cogagent-9b-20241220