当前位置: 首页 > article >正文

【AIGC半月报】AIGC大模型启元:2024.09(上)

【AIGC半月报】AIGC大模型启元:2024.09(上)

    • (1) OCR-2.0(旷视科技)
    • (2) MiniCPM 3.0(面壁智能)
    • (3) RAGLAB(RAG框架)
    • (4) Reflection 70B(HyperWrite)

(1) OCR-2.0(旷视科技)

2024.09.05 来自清华和旷视的研究团队提出了一个通用的OCR-2.0模型,其结构比OCR-1.0系统更简单,更专注于纯粹的OCR任务,并且具有更优越的性能。OCR-2.0将各种泛OCR任务集成到一个模型中,是模型设计、数据工程和应用场景中一个有价值的研究方向。团队推出GOT(General OCR Theory)模型的特点如下:

  • 模型能力:模型能够处理各种OCR任务中的上述所有类型的“字符”。
  • 参数规模:拥有5.8亿参数。
  • 端到端设计:是一个统一且优雅的端到端模型,包含高压缩编码器和长上下文解码器。
  • 输入支持:支持处理常用的场景和文档风格的图像,包括幻灯片和整页样式。
  • 输出灵活:能够通过简单的提示生成纯文本或格式化结果(如markdown、tikz、smiles、kern)。
  • 交互式OCR:具备交互式OCR功能,支持通过坐标或颜色引导的区域级识别。
  • 适应性:为GOT适配了动态分辨率和多页OCR技术,增强了模型的实用性。

推荐文章: 迈向OCR-2.0新时代:通过统一的端到端模型,实现文本、数学公式、表格、图表及乐谱等内容的精确处理,同时支持场景和文档风格等

(2) MiniCPM 3.0(面壁智能)

2024.09.05 端侧 ChatGPT 时刻到来!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能,强得不像端侧模型。并且,量化后仅 2GB 内存,端侧友好。
这还是一款瑞士军刀般全面开挂的基座模型,一口气带来:

  • 无限长文本,榜单性能超越 Kimi,超长文本也不崩;
  • 性能比肩 GPT-4o 的端侧最强 Function Calling;
  • 超强 RAG 外挂三件套,中文检索第一、生成超 Llama3-8B。

推荐文章: 小模型杀疯了!仅4B参数性能超GPT-3.5!无限长文本性能超Kimi
模型地址: https://github.com/OpenBMB/MiniCPM

(3) RAGLAB(RAG框架)

2024.09.05 大型语言模型 (LLM) 在对话、推理和知识保留方面表现出色,但仍面临幻觉和知识实时更新等挑战。为解决这些问题,研究者采用检索增强生成 (RAG) 技术,但 RAG 的发展受限于缺乏算法比较和开源工具的透明度。为此,我们推出 RAGLAB,一个模块化、研究导向的开源库,重现 6 种算法并构建全面研究生态。借助 RAGLAB,我们在 10 个基准上公平对比 6 种算法,助力研究人员高效评估和创新算法。
RAGLAB 重现了六种已发表的 RAG 算法,分别是 Naive RAG、RRR、ITER-RETGEN、Self-ASK、Active RAG 和 Self-RAG。这些算法有诸多相似之处,每个高级的 RAG 算法本质上都是对 Naive RAG 的改进。
RAGALB 的设计理念源自 HuggingFace Transformer 库。用户只需从 Transformer 库中定义他们的模型,然后就能使用generate()方法进行推理。
RAGALB 将每个 RAG 算法实现为一个不同的类。每个算法类中的两个关键方法是init()和infer()。init()方法用于设置参数和加载生成器,而infer()方法实现算法的推理过程。

推荐文章: RAGLAB:又来一个RAG框架,还是模块化的
论文地址: https://arxiv.org/abs/2408.11381

(4) Reflection 70B(HyperWrite)

2024.09.06 快速更迭的开源大模型领域,又出现了新王:Reflection 70B。
横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。
这个新模型 Reflection 70B,来自 AI 写作初创公司 HyperWrite。Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。
Reflection 70B 已在多个基准测试中经过严格测试,包括 MMLU 和 HumanEval。测试结果表明, Reflection 的表现始终优于 Meta 的 Llama 系列,并与 GPT-4o 等全球顶尖的商用模型展开了激烈竞争。

推荐文章: 刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错
Hugging Face: https://huggingface.co/mattshumer/Reflection-70B
试用网址: https://reflection-playground-production.up.railway.app/


http://www.kler.cn/a/293412.html

相关文章:

  • 用MVVM设计模式提升WPF开发体验:分层架构与绑定实例解析
  • change buffer:到底应该选择普通索引还是唯一索引
  • [Linux] Linux信号捕捉
  • 【大数据学习 | flume】flume的概述与组件的介绍
  • androidstudio下载gradle慢
  • 06.VSCODE:备战大项目,CMake专项配置
  • 实际开发中git在IDEA中的使用
  • 机器学习之实战篇——MNIST手写数字0~9识别(全连接神经网络模型)
  • UDP通信实现
  • windows下安装elasticSearch和kibana
  • 报错:CPU指令集的问题
  • Nest.js 实战 (十一):配置热重载 HMR 给服务提提速
  • 鸿蒙界面开发——组件(6):属性字符串(StyledString)文本输入
  • Linux_kernel移植uboot07
  • 单例模式singleton
  • C#基础(2)枚举
  • 工作流之Activiti7 和BPMN讲解
  • Elastic Stack--ES集群加密及Kibana的RBAC实战
  • 报错:Reached the max session limit(DM8 达梦数据库)
  • 【C语言】---- 复合数据类型之结构体(Struct)
  • 期权虚值和实值的投资风险有什么不同?
  • docker 安装mongoDB
  • Anchor Alignment Metric来优化目标检测的标签分配和损失函数。
  • Apache CloudStack Official Document 翻译节选(十三)
  • 使用多尺度C-LSTM进行单变量时间序列异常检测
  • 细胞因子系列