标贝科技受邀出席2024ADD数据应用场景大会 共议数据要素发展新契机
12月13日,由北京市通州区人民政府主办,通州区经济和信息化局、通州区台湖镇人民政府承办的2024-ADD数据应用场景大会成功举办。标贝科技作为AI数据领域代表企业受邀出席大会,与数据要素创业者、投资人一起走进通州台湖,共话数据要素产业发展新机遇。
大会以“论坛+比赛”为核心架构,搭建一个集思想交流、技术展示、项目合作于一体的综合性平台,引入产业需求方及投资机构,与创新项目一起推动数据应用技术的突破,开拓数据应用的市场空间。吸引了众多优秀数据应用创新项目、科技企业、研究院所以及投资机构齐聚会议现场。
会上,标贝科技联合创始人&CTO李秀林博士与其他企业代表围绕“ALL IN AI的新时代,如何实现数据价值”话题进行了深入探讨。
随着大模型技术的发展,语音大模型、视频大模型等各类生成式AI基础设施和技术的迅猛发展,数据需求也随之井喷式增长。一方面,在技术层面无监督数据被广泛采纳,借助无监督/自监督技术来设计并优化模型算法。另一方面,生成式AI的应用场景日益丰富,每个场景都需要特定类的数据来支持模型的训练和调优。对高质量数据的需求,成为解决大模型在实际应用中面临诸多挑战的关键所在。
李秀林博士表示,市场需求的增加,对数据的要求在多个方面都发生了显著的变化。一是数据规模的变化,比传统的数据规模上升了多个数量级。比如,原来合成数据只需要几小时或者几十小时,现在则需要数十万数百万小时的数据规模。二是对数据的加工处理,尤其是自动处理能力提出了更高的要求。因为大规模的数据通过人工来处理,还是非常费时费力的,难以满足效率的要求。三是对特定领域的专业能力、标注人才,比如医学、奥数等数据的标注,普通标注员难以保证准确率行,需要专业的标注人才。四是对数据解决方案的需求增加。就此,标贝科技也结合自身的技术实践,不断推出数据解决方案来为客户提供服务。
深耕AI数据服务领域多年,标贝科技紧跟AI技术发展带来的变革趋势,积极调整策略,以应对大模型数据需求市场的快速崛起。
依托自研的一站式智能标注工具AI数据平台以及严格的数据标准管理流程,标贝科技构建了一套完备的大模型数据处理解决方案。方案覆盖从数据采集、标注、管理、模型训练与优化、部署与应用一站式服务全流程数据服务,可以支持图像、点云、语音、文本、大模型、多模态等多种数据类型,满足不同场景下数据的处理和分析需求,为AI大模型的训练和优化提供坚实的保障。
此外,标贝科技还积累了高精度、多样化、专业化的数据集。数据集包括语音识别、语音合成、图像、文本、多模态等领域,内容丰富,适配性强,覆盖智慧金融、智慧医疗、自动驾驶、虚拟数字人等行业,可用于大模型在预训练、指令微调、对齐、评估等不同阶段的训练数据需求,提升模型性能。
近期,国家数据局引发了《可信数据空间发展行动计划(2024—2028年)》。提出到2028年建成100个以上可信数据空间,基本建成广泛互联、资源集聚、生态繁荣、价值共创、治理有序的可信数据空间网络,各领域数据开发开放和流通使用水平显著提升,初步形成与我国经济社会发展水平相适应的数据生态体系。
置身于产业变革的浪潮之巅,标贝科技将积极响应培育数据要素市场的政策号召,进一步加强技术创新,不断精进自身数据产品的核心竞争力,为客户提供高质量、安全、多样性数据服务体验。同时与业界伙伴携手探索数据要素的全新价值空间,充分利用高质量数据的强大潜力,推动AI技术在更多元化场景中的创新应用,为AI产业的繁荣发展注入新的活力