【AIGC半月报】AIGC大模型启元:2024.09(上)
【AIGC半月报】AIGC大模型启元:2024.09(上)
- (1) OCR-2.0(旷视科技)
- (2) MiniCPM 3.0(面壁智能)
- (3) RAGLAB(RAG框架)
- (4) Reflection 70B(HyperWrite)
(1) OCR-2.0(旷视科技)
2024.09.05 来自清华和旷视的研究团队提出了一个通用的OCR-2.0模型,其结构比OCR-1.0系统更简单,更专注于纯粹的OCR任务,并且具有更优越的性能。OCR-2.0将各种泛OCR任务集成到一个模型中,是模型设计、数据工程和应用场景中一个有价值的研究方向。团队推出GOT(General OCR Theory)模型的特点如下:
- 模型能力:模型能够处理各种OCR任务中的上述所有类型的“字符”。
- 参数规模:拥有5.8亿参数。
- 端到端设计:是一个统一且优雅的端到端模型,包含高压缩编码器和长上下文解码器。
- 输入支持:支持处理常用的场景和文档风格的图像,包括幻灯片和整页样式。
- 输出灵活:能够通过简单的提示生成纯文本或格式化结果(如markdown、tikz、smiles、kern)。
- 交互式OCR:具备交互式OCR功能,支持通过坐标或颜色引导的区域级识别。
- 适应性:为GOT适配了动态分辨率和多页OCR技术,增强了模型的实用性。
推荐文章: 迈向OCR-2.0新时代:通过统一的端到端模型,实现文本、数学公式、表格、图表及乐谱等内容的精确处理,同时支持场景和文档风格等
(2) MiniCPM 3.0(面壁智能)
2024.09.05 端侧 ChatGPT 时刻到来!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能,强得不像端侧模型。并且,量化后仅 2GB 内存,端侧友好。
这还是一款瑞士军刀般全面开挂的基座模型,一口气带来:
- 无限长文本,榜单性能超越 Kimi,超长文本也不崩;
- 性能比肩 GPT-4o 的端侧最强 Function Calling;
- 超强 RAG 外挂三件套,中文检索第一、生成超 Llama3-8B。
推荐文章: 小模型杀疯了!仅4B参数性能超GPT-3.5!无限长文本性能超Kimi
模型地址: https://github.com/OpenBMB/MiniCPM
(3) RAGLAB(RAG框架)
2024.09.05 大型语言模型 (LLM) 在对话、推理和知识保留方面表现出色,但仍面临幻觉和知识实时更新等挑战。为解决这些问题,研究者采用检索增强生成 (RAG) 技术,但 RAG 的发展受限于缺乏算法比较和开源工具的透明度。为此,我们推出 RAGLAB,一个模块化、研究导向的开源库,重现 6 种算法并构建全面研究生态。借助 RAGLAB,我们在 10 个基准上公平对比 6 种算法,助力研究人员高效评估和创新算法。
RAGLAB 重现了六种已发表的 RAG 算法,分别是 Naive RAG、RRR、ITER-RETGEN、Self-ASK、Active RAG 和 Self-RAG。这些算法有诸多相似之处,每个高级的 RAG 算法本质上都是对 Naive RAG 的改进。
RAGALB 的设计理念源自 HuggingFace Transformer 库。用户只需从 Transformer 库中定义他们的模型,然后就能使用generate()方法进行推理。
RAGALB 将每个 RAG 算法实现为一个不同的类。每个算法类中的两个关键方法是init()和infer()。init()方法用于设置参数和加载生成器,而infer()方法实现算法的推理过程。
推荐文章: RAGLAB:又来一个RAG框架,还是模块化的
论文地址: https://arxiv.org/abs/2408.11381
(4) Reflection 70B(HyperWrite)
2024.09.06 快速更迭的开源大模型领域,又出现了新王:Reflection 70B。
横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。
这个新模型 Reflection 70B,来自 AI 写作初创公司 HyperWrite。Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。
Reflection 70B 已在多个基准测试中经过严格测试,包括 MMLU 和 HumanEval。测试结果表明, Reflection 的表现始终优于 Meta 的 Llama 系列,并与 GPT-4o 等全球顶尖的商用模型展开了激烈竞争。
推荐文章: 刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错
Hugging Face: https://huggingface.co/mattshumer/Reflection-70B
试用网址: https://reflection-playground-production.up.railway.app/