当前位置: 首页 > article >正文

【AIGC半月报】AIGC大模型启元:2024.11(下)

【AIGC半月报】AIGC大模型启元:2024.11(下)

    • (1) Baichuan-Omni(百川智能开源大模型)
    • (2) Qwen2.5-Coder(阿里开源代码大模型)
    • (3) Pixtral Large/Le Chat(MistralAI开源大模型)

(1) Baichuan-Omni(百川智能开源大模型)

2024.11.15 突出多模态能力和交互体验的 GPT-4o 强调了其在实际应用中的关键作用,然而它缺乏一个高性能的开源对应物。在本文中,作者介绍了 Baichuan-Omni,这是第一款开源的 7B 多模态大语言模型(MLLM),能够同时处理和分析图像、视频、音频和文本的模态,同时提供先进的模态交互体验和强大性能。
  作者提出了一种有效的多模态训练模式,从 7B 模型开始,经过两个阶段的多模态对齐和多任务微调,分别针对音频、图像、视频和文本模态。这种方法使语言模型能够有效地处理视觉和音频数据。
  通过在各种全模态和多模态基准测试上展示强大的性能,作者旨在将此贡献作为开源社区在推进多模态理解和实时交互方面的竞争性 Baseline 。

推荐文章: 炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本
开源地址: https://github.com/westlake-baichuan-mllm/bc-omni

(2) Qwen2.5-Coder(阿里开源代码大模型)

2024.11.19 开源“强大”、“多样”、“实用”的Qwen2.5-Coder系列(原CodeQwen1.5),致力于不断推动Open CodeLLM的发展。
💻功能强大:Qwen2.5-Coder-32B-Instruct已成为当前SOTA开源代码模型,匹配GPT-4o的编码能力。在展现出强大而全面的编码能力的同时,还具备良好的综合能力和数学能力;
📚 多样化:在之前开源的 1.5B / 7B 两种尺寸的基础上,本次发布带来了 0.5B / 3B / 14B / 32B 等四种模型尺寸。截至目前,Qwen2.5-Coder已覆盖六种主流模型尺寸,满足不同开发者的需求;
🛠 实用性:我们探讨了 Qwen2.5-Coder 在代码助手和 Artifacts 两个场景中的实用性,并通过一些示例展示了 Qwen2.5-Coder 在实际场景中的潜在应用;
主要特点
✨ 支持长上下文理解和生成,上下文长度为 128K token;
✨ 支持92种编码语言;
[‘ada’, ‘agda’, ‘alloy’, ‘antlr’, ‘applescript’, ‘assembly’, ‘augeas’, ‘awk’, ‘batchfile’, ‘bluespec’, ‘c’, ‘c#’, ‘c++’, ‘clojure’, ‘cmake’, ‘coffeescript’, ‘common-lisp’, ‘css’, ‘cuda’, ‘dart’, ‘dockerfile’, ‘elixir’, ‘elm’, ‘emacs-lisp’, ‘erlang’, ‘f#’, ‘fortran’, ‘glsl’, ‘go’, ‘groovy’, ‘haskell’, ‘html’, ‘idris’, ‘isabelle’, ‘java’, ‘java-server-pages’, ‘javascript’, ‘json’, ‘julia’, ‘jupyter-notebook’, ‘kotlin’, ‘lean’, ‘literate-agda’, ‘literate-coffeescript’, ‘literate-haskell’, ‘lua’, ‘makefile’, ‘maple’, ‘markdown’, ‘mathematica’, ‘matlab’, ‘objectc++’, ‘ocaml’, ‘pascal’, ‘perl’, ‘php’, ‘powershell’, ‘prolog’, ‘protocol-buffer’, ‘python’, ‘r’, ‘racket’, ‘restructuredtext’, ‘rmarkdown’, ‘ruby’, ‘rust’, ‘sas’, ‘scala’, ‘scheme’, ‘shell’, ‘smalltalk’, ‘solidity’, ‘sparql’, ‘sql’, ‘stan’, ‘standard-ml’, ‘stata’, ‘swift’, ‘systemverilog’, ‘tcl’, ‘tcsh’, ‘tex’, ‘thrift’, ‘typescript’, ‘verilog’, ‘vhdl’, ‘visual-basic’, ‘vue’, ‘xslt’, ‘yacc’, ‘yaml’, ‘zig’]
✨ 保留基础模型的数学优势和一般能力
模型开源了很多版本,还有量化版本,本部署非常方便,为了方便使用,也可以直接去官方部署的网址去试用

推荐文章: 用不了cursor,qwen2.5-coder完全可以平替了
云开发平台:https://tongyi.aliyun.com/qianwen/

(3) Pixtral Large/Le Chat(MistralAI开源大模型)

2024.11.19 Mistral AI深夜两弹更新!124B多模态巨无霸大幅超越GPT-4o,还有全新升级的Le Chat完全开放了,Flux图像生成、网络搜索、Canvas强大功能,免费用。
Mistral AI终于放大招了!一连发布两大更新——

  • Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。
  • 全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!
    在官博中,研究人员总结了Pixtral Large的5大亮点:
  • SOTA的多模态性能
  • 在MathVista、DocVQA、VQAv2等任务上达到SOTA水平
  • 在不影响文本处理性能的前提下对Mistral Large 2进行扩展
  • 1230亿参数的多模态解码器,10亿参数的视觉编码器
  • 128K上下文窗口长度:可容纳至少30张高分辨率图像

推荐文章: Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
开源地址: https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main
https://mistral.ai/news/mistral-chat/
https://mistral.ai/news/pixtral-large/
云开发平台: https://chat.mistral.ai/chat


http://www.kler.cn/a/402710.html

相关文章:

  • 神经网络12-Time-Series Transformer (TST)模型
  • 部署一套开源客服系统,用户需要准备什么设备?
  • 4.4 MySQL 触发器(Trigger)
  • 产业用机器人中的旋转花键若损伤有何影响?
  • 图形化界面MySQL(MySQL)(超级详细)
  • VSCode打开c#项目报错:DotnetAcquisitionTimeoutError
  • js utils 封装
  • 快速理解python中的yield关键字
  • Web应用安全入门:架构搭建、漏洞分析与HTTP数据包处理
  • 基于Spark3.4.4开发StructuredStreaming读取文件数据
  • 结合第三方模块requests,文件IO、正则表达式,通过函数封装爬虫应用采集数据
  • vue 获取项目本地文件并转base64
  • sei主网节点快速搭建方法
  • 【西瓜书】线性判别分析-LDA
  • 详细解读EcoVadis认证
  • 【K8S系列】深入探讨 Kubernetes 资源配额(Resource Quotas)实现方案
  • React Native的界面与交互
  • 嵌入式学习-C嘎嘎-Day06
  • 11.20Pytorch_概数和基础
  • 深度学习:神经网络中的非线性激活的使用
  • 深入理解C++11右值引用与移动语义:高效编程的基石
  • Android开发实战班 - 现代 UI 开发之自定义 Compose 组件
  • Java基于微信小程序的校园跑腿平台(V2.0)
  • elementUI 表格组件结合单选框做单选效果显示
  • 人形机器人开发、XR仿真训练、影视动画制作,一副手套支持多种应用
  • 安装CLIP