当前位置：首页 > article >正文

ProtonBase × Data for AI Meetup·杭州站

article 2025/2/20 20:25:40

11月24日下午，由蚂蚁开源与 Datastrato 主办，LF AI & DATA、OceanBase、ProtonBase、腾讯大数据协办的 Data for AI Meetup·杭州站将于黄龙国际中心 E 座 4F 举办。ProtonBase 技术副总裁胡月军将分享演讲《分布式Data Warebase - AI时代的数据底座》。

01/活动简介

在当今数字化时代，AI 的应用浪潮正以前所未有的速度席卷各业。企业纷纷投身其中，试图借助 AI 技术重塑自身的产品体系与业务流程。然而，在 AI 的三大核心要素中，数据这一关键要素在许多企业内部却面临着困境。

一方面，企业内部的数据往往缺乏有效的治理，数据管理混乱无序，数据存储分散，缺乏统一的标准和规范，导致数据的检索、调用和共享变得困难。另一方面，数据质量参差不齐，使得数据的准确性和可靠性大打折扣。这些都导致企业无法充分挖掘数据中蕴含的价值，大量有价值的数据资产被闲置浪费。这些数据的问题最终限制了 AI 效果的发挥。

如今越来越多的企业认识到数据对于 AI 的重要性。他们开始积极探寻能够让数据高效、成本可控地服务于 AI。为了满足大家在这一领域的迫切需求，Data for AI Meetup 活动应运而生。我们邀请到了业内领先的数据和 AI 公司，以及权威的研究机构，围绕如何更好地实现 Data for AI 这一主题展开深入的探讨与交流，旨在为大家提供切实可行的解决方案和思路，助力企业在 AI 时代充分释放数据的巨大能量，实现数字化转型的可持续发展。

⭐️ 主办单位：蚂蚁开源，Datastrato

⭐️ 协办单位：LF AI & DATA，OceanBase，ProtonBase，腾讯大数据

⭐️ 活动时间：2024 年 11 月 24 日（周日）13:30-17:30

⭐️ 活动地点：浙江省杭州市黄龙国际中心 E 座 4F

02/活动议程

03/议题详情

「蚂蚁自研向量索引库 VSAG 介绍及其业务落地实践」

演讲者：王翔宇(祥予) 蚂蚁向量引擎专家

王翔宇，蚂蚁数据部技术专家。2023 年加入蚂蚁集团，主要负责蚂蚁向量检索算法研发以及千亿规模向量数据库在蚂蚁业务场景落地。对向量检索算法与系统有丰富经验。同时也是开源向量数据库 Milvus 的核心开发者，BigANN 21 Track 2 第一名团队成员。曾在 Zilliz 负责存储和 GPU 算法相关开发工作。

演讲内容：本次分享将重点介绍蚂蚁集团自研向量索引库涉及的关键技术和在业务场景中的落地实践。

向量检索在信息检索、推荐系统和语义匹配等领域发挥着重要作用。随着近两年 LLM 的发展和 RAG 架构的普及，向量检索技术面临着更多新的挑战。我们将围绕这些背景，介绍开发 VSAG 索引库的动机、设计目标和实现方式。内容涵盖了算法选择、索引结构、快速搜索技术和性能优化策略。此外，我们还将分享如何应对高维度向量、超大规模数据集和超高精度等挑战。

通过本次分享，希望能够提供参与者对 VSAG 的深入理解，并探讨在面对实际场景中的应用时可能遇到的技术挑战和解决方案。无论你是 RAG 开发者、向量数据库工程师或对向量检索技术感兴趣的研究人员，这次分享都可能为你带来有益的经验和见解。

让我们一起探索向量检索的魅力和挑战！

「Gravitino 统一权限与非结构化数据管理介绍」

演讲者：李明皇 Datastrato 工程师，Apache Gravitino PPMC & Committer

2020 年福州大学硕士毕业后从事 OLAP 引擎开发，先后参与了 Presto、ClickHouse、Apache Druid 和 StarRocks 的引擎开发，2023 年加入 Datastrato，目前主要参与 Gravitino 的内核研发。

演讲内容：随着大数据和 AI 的迅猛发展，企业面临着管理分布于不同来源、类型和地域的海量数据的挑战，如何实现高效的元数据管理和统一的权限控制，已成为数据治理中的关键问题。Apache Gravitino 作为一款高性能、跨地域的联邦式元数据湖，可以直接管理多源异构的数据元信息，为用户提供统一的元数据访问接口，支持数据和 AI 资产的高效整合。

本次分享将详细介绍 Gravitino 在统一权限和非结构化数据管理的原理和应用，以及项目当前的进展和发展规划。

「OceanBase 加速 AI 应用落地」

演讲者：蔡飞志（谷渐）OceanBase 技术部高级专家

毕业于北京大学，14 年进入 OceanBase 团队后，先后从事 OceanBase 数据库代理、数据库驱动、分布式存储的研发，目前是 OceanBase 开源生态的研发负责人。对于 LLM、AI Agent 比较感兴趣，是个喜欢聊天的 i 人。

演讲内容：在本次分享中，我将深入解析当前数据行业的发展动态，并结合自身观察，为大家呈现全面的行业图景。数据行业作为信息化时代的重要支柱，正在快速变革，数据的种类和复杂度日益增加，如何高效地管理和应用这些数据成为业界关注的焦点。我将详细介绍 OceanBase 数据库在处理结构化、半结构化和非结构化数据中的方案设计。面对这三种类型的数据，OceanBase 数据库通过独特的架构设计和强大的技术支持，实现了高效的存储、检索和分析能力，满足了不同业务场景的需求。此外，我将探讨 OceanBase 数据库在人工智能应用中的作用，探讨数据库功能在 AI 应用上提供的价值，加速 AI 应用的落地。

「分布式 Data Warebase - AI 时代的数据底座」

✨ 演讲者：胡月军 ProtonBase 技术副总裁

现任 ProtonBase 技术副总裁，从事存储与计算引擎的设计与研发工作，致力于打造 AI 时代云原生一体化的数据存储，计算和管理系统。曾任阿里巴巴计算平台事业部资深技术专家，发起和参与了阿里巴巴交互式分析引擎 Hologres 的研发。在此之前，从事 5 年搜索和广告引擎的设计与开发，负责过阿里巴巴淘宝、天猫、1688、Sourcing 和 AliExress 的搜索与广告在线引擎系统，主导过阿里巴巴国际搜索和广告引擎在离线的一体化升级改造。

✨ 演讲内容：随着 AI 的发展，数据从信息的载体越来越成为智能的燃料，这也为数据系统提出了更高的要求。本演讲将分享一种全新的 Data Warebase 技术理念，它吸收融合了数据库和大数据领域的核心技术，通过一个系统来满足简单读写，实时数仓，数据湖和搜索等场景的传统需求，同时能够支持向量检索和特征召回等 AI 场景的新需求，为 AI 时代的智能应用提供了完备的数据底座，助力企业的数智化业务发展。

✨ 演讲大纲：

数据智能化背景
当前典型数据系统架构和痛点
AI 对数据系统的新需求
分布式 Data Warebase 的核心技术
实践案例与展望

「Data + AI 场景下的分布式引擎探索与实践」

演讲者：李志方腾讯大数据基础架构高级研发工程师

博士毕业于华东师范大学，从事数据库方向研究，曾发表 PPoPP/ICDE 等多篇顶会论文。毕业后加入腾讯湖仓团队，负责 Ray/Iceberg 内核，以及 Data + AI 场景的深度优化。

演讲内容：以 Spark/Flink 为代表的基于 JVM 的经典引擎在 BigData 领域获得了巨大成功，随着大模型等 AI 技术的崛起，经典引擎在 Data+AI 融合场景下的支持仍然稍显不足，存在开发难度大和资源利用率低等诸多问题。因此一方面，腾讯大数据团队在经典的 Spark 引擎基础上升级了湖上的向量查询能力，充分发挥其在可伸缩性上的优势。另外一方面，也围绕 Python 生态和 Ray 引擎，进行了新链路的探索。最初是基于 PyIceberg 与湖仓底座进行单机多卡的模型推理与训练。随着项目迭代，借助 Ray 灵活而强大的分布式异构编程能力，进而拓展实现了高性能的数据科学链路，包括分布式 pandas-like 数据分析，加速因果推断等多个业务场景。

活动报名：扫描议程图二维码报名，名额有限，先到先得。ProtonBase 期待与你线下相会！