当前位置：首页 > article >正文

GOAT‘S AI早鸟报Part10

article 2025/1/24 9:36:22

精彩集锦：

资讯

OpenAI与软银和甲骨文合作，启动5000亿美元数据中心项目

Yahoo

OpenAI宣布将与日本软银、甲骨文及其他公司合作，在美国建设多个AI数据中心。这一联合项目名为“Stargate计划”，初期将从德克萨斯州的大型数据中心开始，并计划在未来四年内将投资额从最初的 1000 亿美元扩展到 5000 亿美元。项目预计将创造数十万个就业岗位，并有助于巩固美国在AI领域的全球领导地位。

该项目不仅旨在为 OpenAI 提供新的AI基础设施，还将支持美国的再工业化，并加强国家安全保护。Stargate计划的启动是在美国白宫举行的新闻发布会上宣布的，软银的创始人孙正义、OpenAI 的 CEO 萨姆奥特曼和甲骨文创始人拉里•埃里森均出席了此次发布会。

Sargate计划得到了微软、Arm 和 Nvidia 等技术合作伙伴的支持，中东的 AI 基金 MGX 也将参与投资。软银、OpenAI 和甲骨文三家公司是 Stargate 的主要股东，软银负责资金支持，而 OpenAI 负责项目的运营。计划中的数据中心将容纳 OpenAI 设计的芯片，OpenAI 正在与半导体公司博通和台积电合作，计划在 2026 年推出一款用于 AI 模型运行的专用芯片。

软银和甲骨文早已分别投资 OpenAI。软银在 OpenAI 的上一轮融资中投入了 5 亿美元，并追加了 15 亿美元，使 OpenAI 的员工能够出售股份。而甲骨文则与 OpenAI 有长期合作，向其提供 AI 计算资源。此次，软银已承诺在未来四年内在美国投资 1000 亿美元。

Stargate 计划的首个数据中心选址为德克萨斯州的阿比林，预计该地的数据中心将达到近 1 GW的电力需求，这足以为大约 75 万户小型住宅提供电力。该项目的总计成本预计为 34 亿美元。未来，Stargate 还计划在美国多个地点建立更多数据中心。

OpenAI 和微软此前已就建设 AI 数据中心进行合作，并计划在未来几年分阶段推进，包括建设一个规模为 5 GW的大型设施。随着 AI 行业的快速增长，对数据中心的需求持续增加，而 AI 系统需要大量的服务器来进行大规模开发和运行。

尽管数据中心项目常因其环境影响和对水资源与电力的巨大需求受到批评，但对数据中心投资的热情并未减弱。根据麦肯锡的报告，未来五年，数据中心设备采购和安装的资本支出可能超过2500亿美元。

推特

ElevenLabs分享：在文档中嵌入了一个对话式人工代理，以帮助减轻与文档相关问题的支持负担

https://x.com/elevenlabsio/status/1881709867552866723

我们在文档中嵌入了一个对话式人工智能代理，以帮助减轻与文档相关问题的支持负担。目前，我们的代理每天处理超过200次调用，解决了文档页面上80%以上的用户咨询。想了解更多关于我们如何部署代理、监控成效并迭代优化输出的信息，请阅读我们的详细分析 Building an effective Voice Agent for our own docs | ElevenLabs

信号

Relevance-guided Supervision forOpenQA with ColBERT

原文链接: Yahoo

研究节点:训练体系->后训练 post-train->微调 Finetune，架构体系->转换器架构 TransformerArchitecture->编码器架构 Encoder-only,BERT，架构体系->注意力机制 Attention Mechanism->自注意力( Self-Attention )

信号源: Stanford University

CoIBERT-QA 是一个用于开放域问答( OpenQA )的系统，通过改进检索模型和监督策略，显著提升了问答性能。OpenQA 的目标是从大规模无结构文本中找到事实性问题的答案，通常依赖于检索模型找到相关段落和阅读模型从中提取答案。然而，现有的检索模型在处理自然语言问题的复杂性时存在不足，且监督方法存在局限性。

CoIBERT-OA 基于CoIBERT 检索模型，通过细粒度的交互来匹配问题和段落并提出了一种高效的弱监督策略--相关性引导监督(Relevance-GuidedSupervision,RGS) RGS 利用现有的检索模型收集训练数据，并通过迭代改进检索器的性能。具体来说，RGS 从一个弱检索模型(如 BM25 )开始，逐步使用更有效的检索器生成正负样本，用于训练更强大的检索器。

实验结果表明，CoIBERTQA 在 Natural Questions.SQuAD 和 TriviaQA 三个数据集上取得了最先进的检索和提取式 OpenQA 性能。与基于 BM25 和 DPR 等基线模型相比，CoIBERT-QA 在 Success@20 指标上显著提升，表明其能够更有效地找到包含答案的段落，此外，CoIBERT-QA 在端到端 OpenQA 任务中也表现出色，使用 BERT-base 和 BERT-large 阅读器时均达到了新的最高水平

COIBERT-OA 的主要贡献包括:提出了一种高效的迭代策略 RGS，用于在没有手工标注证据段落的情况下微调检索器;通过系统比较验证了 CoIBERT 的细粒度交互优于现有的单向量检索器;应用 RGS 后，CoIBERT 和单向量检索器的性能均显著提升最终的 COIBERT-OA 系统在多个数据集上取得了最佳性能。

产品

Human-Like-DPO-Dataset 增强模型的类人反应数据集

https://huggingface.co/datasets/HumanLLMs/Human-Like-DPO-DatasetHuman-Like-DPO-Dataset

数据集是为提高大型语言模型的对话流畅度和参与度而创建的，它适用于直接偏好优化( DPO )等格式，引导模型生成更贴近人类的自然反应。

该数据集包含 256 个主题(涵盖科技、日常生活、科学、历史、艺术等)的 10,884 个样本。每条样本包子

对话式问题: 贴近日常交流的问题。
类似人类的回答: 模仿人类对话风格的自然会话式回答。
正式回复: 传统AI风格的结构化的专业回答。

该数据集可用于微调大型语言模型从而提升对话连贯性、减少机械化回答，并增强对话系统的情感智能。

投融资

Mistral AI 计划 IPO

https://techcrunch.com/2025/01/21/mistral-ai-plansipo/

法国人工智能实验室Mistral正在计划首次公开募股(IPO)。Mistral的联合创始人兼首席执行官Arthur Mensch在达沃斯世界经济论坛期间接受彭博社采访时表示，公司正在朝着这一目标努力。Mensch强调，Mistral“不会出售”，并透露公司计划在新加坡开设办事处专注于亚太地区，同时在欧洲和美国也在扩展业务。"当然，IPO是计划中的一部分，“他补充道。

Mistral成立于2023年，由Mensch与前谷歌DeepMind和Meta的研究人员共同创办。该实验室常被认为是欧洲对抗美国巨头如OpenAI的代表。Mistral发布的人工智能模型和服务与OpenAI等公司的产品直接竞争，其中包括一款类似于ChatGPT的聊天平台Le Chat。

截至目前，Mistral已从Andreessen Horowitz、General Catalyst和Lightspeed VenturePartners等投资者处筹集了约11.4亿美元的资金。根据最新估值，公司被认为约值60亿美元。

公司官网: Mistral AI | Frontier AI in your hands