【AIGC半月报】AIGC大模型启元:2024.11(下)
【AIGC半月报】AIGC大模型启元:2024.11(下)
- (1) Baichuan-Omni(百川智能开源大模型)
- (2) Qwen2.5-Coder(阿里开源代码大模型)
- (3) Pixtral Large/Le Chat(MistralAI开源大模型)
(1) Baichuan-Omni(百川智能开源大模型)
2024.11.15 突出多模态能力和交互体验的 GPT-4o 强调了其在实际应用中的关键作用,然而它缺乏一个高性能的开源对应物。在本文中,作者介绍了 Baichuan-Omni,这是第一款开源的 7B 多模态大语言模型(MLLM),能够同时处理和分析图像、视频、音频和文本的模态,同时提供先进的模态交互体验和强大性能。
作者提出了一种有效的多模态训练模式,从 7B 模型开始,经过两个阶段的多模态对齐和多任务微调,分别针对音频、图像、视频和文本模态。这种方法使语言模型能够有效地处理视觉和音频数据。
通过在各种全模态和多模态基准测试上展示强大的性能,作者旨在将此贡献作为开源社区在推进多模态理解和实时交互方面的竞争性 Baseline 。
推荐文章: 炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本
开源地址: https://github.com/westlake-baichuan-mllm/bc-omni
(2) Qwen2.5-Coder(阿里开源代码大模型)
2024.11.19 开源“强大”、“多样”、“实用”的Qwen2.5-Coder系列(原CodeQwen1.5),致力于不断推动Open CodeLLM的发展。
💻功能强大:Qwen2.5-Coder-32B-Instruct已成为当前SOTA开源代码模型,匹配GPT-4o的编码能力。在展现出强大而全面的编码能力的同时,还具备良好的综合能力和数学能力;
📚 多样化:在之前开源的 1.5B / 7B 两种尺寸的基础上,本次发布带来了 0.5B / 3B / 14B / 32B 等四种模型尺寸。截至目前,Qwen2.5-Coder已覆盖六种主流模型尺寸,满足不同开发者的需求;
🛠 实用性:我们探讨了 Qwen2.5-Coder 在代码助手和 Artifacts 两个场景中的实用性,并通过一些示例展示了 Qwen2.5-Coder 在实际场景中的潜在应用;
主要特点
✨ 支持长上下文理解和生成,上下文长度为 128K token;
✨ 支持92种编码语言;
[‘ada’, ‘agda’, ‘alloy’, ‘antlr’, ‘applescript’, ‘assembly’, ‘augeas’, ‘awk’, ‘batchfile’, ‘bluespec’, ‘c’, ‘c#’, ‘c++’, ‘clojure’, ‘cmake’, ‘coffeescript’, ‘common-lisp’, ‘css’, ‘cuda’, ‘dart’, ‘dockerfile’, ‘elixir’, ‘elm’, ‘emacs-lisp’, ‘erlang’, ‘f#’, ‘fortran’, ‘glsl’, ‘go’, ‘groovy’, ‘haskell’, ‘html’, ‘idris’, ‘isabelle’, ‘java’, ‘java-server-pages’, ‘javascript’, ‘json’, ‘julia’, ‘jupyter-notebook’, ‘kotlin’, ‘lean’, ‘literate-agda’, ‘literate-coffeescript’, ‘literate-haskell’, ‘lua’, ‘makefile’, ‘maple’, ‘markdown’, ‘mathematica’, ‘matlab’, ‘objectc++’, ‘ocaml’, ‘pascal’, ‘perl’, ‘php’, ‘powershell’, ‘prolog’, ‘protocol-buffer’, ‘python’, ‘r’, ‘racket’, ‘restructuredtext’, ‘rmarkdown’, ‘ruby’, ‘rust’, ‘sas’, ‘scala’, ‘scheme’, ‘shell’, ‘smalltalk’, ‘solidity’, ‘sparql’, ‘sql’, ‘stan’, ‘standard-ml’, ‘stata’, ‘swift’, ‘systemverilog’, ‘tcl’, ‘tcsh’, ‘tex’, ‘thrift’, ‘typescript’, ‘verilog’, ‘vhdl’, ‘visual-basic’, ‘vue’, ‘xslt’, ‘yacc’, ‘yaml’, ‘zig’]
✨ 保留基础模型的数学优势和一般能力
模型开源了很多版本,还有量化版本,本部署非常方便,为了方便使用,也可以直接去官方部署的网址去试用
推荐文章: 用不了cursor,qwen2.5-coder完全可以平替了
云开发平台:https://tongyi.aliyun.com/qianwen/
(3) Pixtral Large/Le Chat(MistralAI开源大模型)
2024.11.19 Mistral AI深夜两弹更新!124B多模态巨无霸大幅超越GPT-4o,还有全新升级的Le Chat完全开放了,Flux图像生成、网络搜索、Canvas强大功能,免费用。
Mistral AI终于放大招了!一连发布两大更新——
- Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。
- 全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!
在官博中,研究人员总结了Pixtral Large的5大亮点: - SOTA的多模态性能
- 在MathVista、DocVQA、VQAv2等任务上达到SOTA水平
- 在不影响文本处理性能的前提下对Mistral Large 2进行扩展
- 1230亿参数的多模态解码器,10亿参数的视觉编码器
- 128K上下文窗口长度:可容纳至少30张高分辨率图像
推荐文章: Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
开源地址: https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main
https://mistral.ai/news/mistral-chat/
https://mistral.ai/news/pixtral-large/
云开发平台: https://chat.mistral.ai/chat