当前位置：首页 > article >正文

2024爱分析·数据库厂商全景报告｜爱分析报告

article 2024/10/26 7:43:36

在信创政策、技术创新和业务需求的推动下，中国数据库市场正快速增长。预计到2027年，市场规模将从2022年的403.6亿元增长至1286.8亿元，年复合增长率达26.1%。信创政策的实施加速了国产数据库的发展，特别是在金融、电信、政府等关键行业。技术进步，如AI、云计算与数据库的融合，以及大数据、IoT技术的发展，推动了数据库品类的丰富。云数据库产品和Serverless云服务等新兴技术，为用户提供了高效、灵活的数据库解决方案。

企业对数据库的需求日益多样化，推动了技术的快速迭代。金融等行业对数据库的高并发和实时性有严格要求，而制造业则需要时序数据库和库内机器学习技术来支持决策。同时，HTAP技术、数据库联邦技术、多模技术和湖仓一体技术等前沿技术，正随着业务需求的增长而逐渐成熟，满足企业在实时数据分析和决策支持方面的复杂需求。

10月24日，爱分析正式发布《2024爱分析·数据库厂商全景报告》，通过对市场的需求分析和代表厂商的能力解读，为企业厂商选型提供参考。

覆盖市场：

实时云原生数据库、分析型关系数据库、搜索型数据库

注：“爱分析ifenxi”公众号获取《2024爱分析·数据库厂商全景报告》

01 研究范围定义

研究范围

在信创政策、技术创新和业务需求等因素共同驱动下，我国数据库市场保持快速发展，据大数据技术标准推进委员会测算，2022年中国数据库市场规模为403.6亿元，预计2027年将达到1286.8亿元，年复合增长率为26.1%。

政策端：信创自主可控推动数据库国产化加速

信创已经成为国家战略之一，通过发展信创产业实现信息技术领域的自主可控，保障国家信息安全是国家经济稳定发展的前提。随着大量中央及地方信创相关政策的出台，信创在“2+8+N”行业加速落地。其中数据库作为承载企业数据存储和管理的基础设施，是信创基础软件的替换重点，国产数据库市场迎来加速发展的黄金时期。

在信创政策推动下，以金融、电信、政府、制造、交通为代表的行业对国产数据库需求旺盛，未来，随着信创在更多行业的落地，国产数据库厂商将迎来巨大的市场空间，这也为国产数据库突破核心技术、储备技术人才、丰富产品形态提供发展契机。

技术端：AI、云计算与数据库融合加深，大数据、IoT技术催生数据库品类日益丰富

随着大模型落地加快，大模型与数据库的融合场景愈加成熟，如将生成式AI技术与数据库结构设计、架构设计、数据分析挖掘等场景结合，能有效提升数据库开发、运维和分析效率，正成为数据库厂商智能工具开发新方向。

上云是企业数字化转型的重要战略。为适应云应用的研发需求，数据库厂商正联合云厂商推出云数据库产品，以为用户提供高效、便捷的数据库服务，如基于云计算的数据库即服务（DBaaS），支持用户在云端访问和使用数据库系统，可提供灵活的数据库管理解决方案。企业使用DBaaS，无需购买或配置数据库，能显著降低企业成本。进一步，云计算中的无服务架构（Serverless）技术和服务模式逐渐成熟，使具备Serverless服务的云原生数据库成为厂商重点布局。Serverless云服务基于计算与存储分离的理念，具备自动扩缩容、按需付费的特点，能有效解决用户业务扩张数据库扩容问题，提升用户体验。

此外，大数据、IoT技术的快速发展，使企业数据体量呈爆炸式增长，同时带来异常丰富的数据类型，如时序、GIS、图像、视频、文本等数据类型日益丰富，推动图数据库、时序数据库、时空数据库、文档数据库等各种专用数据库涌现并快速发展。

需求端：企业场景多元化促进数据库技术更新迭代

差异化的业务场景决定了企业对数据库类型和能力要求各不相同，也驱动数据库性能和技术加速突破。如金融行业业务具有连续性，对数据一致性要求极高，且分析场景日益复杂，因此会同时部署关系型数据库和分析型数据库，对两类数据库均要求数据库具备高并发和实时性，同时能灵活满足业务增长的扩容需求。制造业中机器设备和传感器采集了大量的时间序列数据，需要实时提供故障诊断、需求预测、产品优化等决策支持，因此对时序数据库、库内机器学习等技术有强烈需求。

此外，实时数据分析和决策支持场景下同时支持事务和分析的HTAP技术、适应多套业务系统联合分析场景的数据库联邦技术、满足多类型数据处理需求的多模技术以及同时支持对大数据进行BI分析和机器学习预测的湖仓一体技术等多种数据库前沿技术正随着业务应用落地逐渐完善成熟。

本次报告中，爱分析将数据库市场从上至下划分为数据库服务、数据库运维管理产品、数据库产品三层。数据库服务包括咨询规划服务、实施部署服务、运维运营服务；数据库运维管理产品包括数据库云管理、数据迁移备份、数据库开发测试、数据库监控和性能分析工具等；数据库产品包括超融合数据库、混合型关系数据库（HTAP）、事务型关系数据库、分析型关系数据、实时云原生数据库、图数据库、搜索型数据库、向量数据库和时序数据库等多个细分场景。

本报告重点选取实时云原生数据库、分析型关系数据库、搜索型数据库三个市场进行研究。

厂商入选标准：

本次入选报告的厂商需同时符合以下条件：

厂商的产品服务满足各市场分析的厂商能力要求；
近一年厂商具备一定数量以上的付费客户（参考第3章各市场分析部分）；
近一年厂商在特定市场的营业收入达到指标要求（参考第3章各市场分析部分）。

（注：“近一年”指2023年Q3至2024年Q2）

02 厂商全景地图

爱分析基于对甲方企业和典型厂商的调研以及桌面研究，遴选出在数据库市场中具备成熟解决方案和落地能力的入选厂商。

03 市场分析与厂商评估

爱分析对本次数据库项目重点研究市场做如下分析。同时，针对参与此次报告的部分代表厂商，爱分析撰写了厂商能力评估。

3.1 实时云原生数据库

市场定义：

实时云原生数据库是一种能够对结构化或半结构化数据实时存储和计算的数据仓库。与传统数据仓库不同，实时云原生数据库支持海量数据的近实时查询，适用于需要快速分析或决策的场景，如自助分析、在线报表等。

甲方终端用户：

企业 CTO、CIO、IT 部门负责人、科技部门负责人、大数据部门负责人、应用开发人员、数据库管理员

甲方核心需求：

大数据时代，数据正在发生质的变化，数据体量呈爆发式增长，数据类型也越来越丰富。同时，业务也在面临数字化转型，大量决策需要实时数据作为支撑，在线报表、自助分析等应用逐渐成为企业数字化经营的刚需。海量数据与业务实时化的趋势，对数据仓库的存取性能提出了更高的要求。

然而，传统数据仓库在大数据时代遇到了扩展性与响应速度的瓶颈，难以满足企业对海量数据实时存取的需求。例如，以 Teradata 为代表的数据库一体机，仅能够支持有限的数据规模，并且价格昂贵。以 Hadoop 为代表的大数据技术，虽然具备海量数据的存储能力，但是查询性能表现不足，而且其技术组件通常较为复杂，运维成本高。

针对传统数据仓库在实时场景上的能力欠缺，企业需要：

通过海量数据的实时查询与分析，支持数据挖掘与实时决策等场景。随着企业在经营管理中所产生的数据量呈指数级增长，企业希望数据仓库具备海量多源异构数据的处理能力。而且，随着业务对数据时效性的要求越来越高，实时决策需要通过分钟级的近实时数据作为依据。尤其在交互式分析中，会涉及到即席查询的能力，用户需要灵活自主地组合查询条件，从多个维度对海量数据进行探索分析。
高可用的数据服务。数据是一切数字化应用的基础，稳定可靠的数据服务是企业的基本诉求。另外，企业需要系统具备一定的机制来应对服务器故障、操作失误等异常场景，无需人工干预即可自动恢复。

此外，部分企业还希望：

数据安全获得保障。金融、央国企等客户出于法律法规监管，以及对客户隐私、商业信息或国家机密的重视，希望获得数据安全保障。因此具备一定安全机制与功能，防止内部或外部的信息泄露威胁，成为这些领域客户的诉求。
得到专业完善的服务。企业希望获得全面的技术支持和咨询服务，无论是关于运维管理、性能优化、安全管控还是其他方面，企业希望可以获得专业指导和建议，以便更好地解决问题和创造价值。
配备丰富的数据仓库工具。企业希望通过数据仓库相关工具，更加高效便捷地使用、管理数据库，尤其在数据导入与运维方面。在数据导入上，一些复杂的数据转换场景，需要借助 ETL/ELT 工具实现高效灵活的数据导入。在运维管理上，工具在自动化管理、数据安全和可视化监控等方面可以提供非常大的帮助。
在云上部署数据仓库。出于对性能、易用性、成本或安全性等因素的综合考量，部分企业选择在公有云、私有云或混合云上部署数据仓库，来满足海量数据处理对数据仓库弹性扩展的需求。

厂商能力要求：

基于上述需求，在实时云原生数据库的选型上，企业会重点考虑产品性能、周边工具以及厂商综合实力。具体而言：

厂商产品支持对多数据源实时读取。厂商产品提供实时数据导入，能够对多数据源，如事务型数据库、数据湖或数据流等，进行实时集成。在更理想的情况下，厂商产品支持数据联邦，在不需要对数据进行移动的前提下，对多源异构的数据进行读取，为上层分析与应用提供实时服务。
厂商产品提供高性能的数据存取，在复杂的查询分析场景下能够快速响应。在大数据量下，厂商产品提供适当的存储方式，支持高性能的数据读取。此外，在自助分析、在线报表等场景下，厂商产品要支持简单的点查询、复杂的多维查询以及即席查询等多种的查询分析。尤其在海量数据、多表关联的复杂计算场景下能够快速响应，满足用户实时分析与决策的需求。
具备对数据进行深入挖掘分析的技术能力。厂商需要具备多种数据分析技术，如大数据挖掘与分析技术用于统计分析、商业智能，知识图谱技术用于数据关联关系分析，机器学习、运筹优化等技术用于预测性分析、智能决策。

针对部分企业的需求，厂商需具备以下能力：

厂商提供产品周边工具。厂商提供的配套工具，支持产品的使用或运维需求。例如，ETL/ELT 工具支持高效地与数据湖或其他数据源进行连接传输，运维管理工具提供一定的监控与自动化管理能力。
提供专业可靠的服务。厂商要能够依据客户需求，提供前期咨询规划、项目实施与运维管理等方面的服务支持。并且配备专业的技术团队，在数据库运维管理、性能优化等方面提供可靠的指导与建议。
厂商产品具备数据安全保障机制与功能。厂商需要满足金融行业、央国企对数据安全的要求。例如，厂商产品需要具备用户身份验证和授权机制，限制敏感信息的访问权限；或者，使用数据加密技术对敏感数据进行加密存储，防止数据泄露；另外，安全审计、漏洞管理等能力，也可以更好地满足企业数据安全管理的需求。
厂商产品具备云原生特性。针对企业在云上部署数据仓库的需求，厂商产品具备云原生特性，能够发挥弹性、扩展性的优势，并且支持公有云、私有云或混合云部署。

入选标准说明：

1. 符合实时云原生数据库市场分析的厂商能力要求；

2. 近一年厂商在该市场至少服务10家企业。

代表厂商评估：

SelectDB

厂商介绍：

北京飞轮数据科技有限公司成立于 2022 年，是一家企业级实时数据仓库产品供应商。秉承着 “开源技术创新”和“实时数仓服务”双轮驱动的战略，飞轮科技在大力投入 Apache Doris 开源社区的同时，基于 Apache Doris 内核打造了聚焦于企业大数据实时分析需求的企业级产品 SelectDB 及相关解决方案。

产品服务介绍：

定位于“新一代实时数据仓库”，SelectDB 主要为客户提供高性能、简单易用的企业级实时数据仓库产品与服务，满足企业场景中对于实时分析的需求。SelectDB 产品内核基于开源实时数据仓库 Apache Doris 打造，并融入了一系列面向企业级需求的特性。

截止目前，SelectDB 已发布了 SelectDB Cloud 和 SelectDB Enterprise 两款企业级产品，能够分别满足在公有云上和私有化部署的需求：

SelectDB Enterprise 定位为私有化部署版本，可在 IDC、私有云/专有云 VPC 等客户环境部署，用于服务对数据安全更加敏感的金融、政务等行业客户。
SelectDB Cloud 定位为云原生版本，目前已上线阿里云、华为云、腾讯云和 AWS。

厂商评估：

SelectDB 产品基于 Apache Doris 开发，继承了其极速易用的优势，能够满足企业对实时报表与多维分析、用户画像与行为分析、数据湖联邦分析、日志存储与分析等典型场景的需求。

在此之上，产品层面，SelectDB 增加了企业级特性及配套工具，以支持企业对安全、便捷使用与运维等方面的诉求。服务层面，SelectDB 提供来自 Apache Doris 项目核心开发团队的技术服务，团队成员拥有丰富的数据仓库运维管理经验，以解决企业的后顾之忧。

从产品能力看，SelectDB 具备多数据源实时集成、存储、查询的能力，而且性能表现优秀。在数据集成层面，SelectDB 能够快速接入来自关系型数据库、消息队列、流/批处理引擎等数据源的数据。同时，SelectDB 还提供了对关系型数据库、数据湖、云对象存储等联邦查询的能力，而无需迁移数据。
在向量化执行引擎、全新 CBO 查询优化器、Pipeline 执行引擎、智能物化视图等一系列查询加速的技术优化下，SelectDB 能够以毫秒级的响应时间返回海量数据下的查询结果，在点查询、实时报表、即席查询等不同负载下均能够满足企业对实时分析的需求。
从过往的落地案例看，SelectDB 分析性能能够有效提升企业实时数据分析的效率，并且简化技术栈。例如，某制造企业基于 SelectDB 构建了统一的实时数据仓库，摒弃了之前分别服务于在线实时报表和离线即席查询的两套数据架构，架构复杂性与运维成本大幅降低，所消耗的计算和存储资源降低达 70%，查询性能实现了近十倍的提升
SelectDB 基于 Apache Doris 构建，产品内核稳定、高可用。Apache Doris 经历了严格的测试流程以及广大开源用户的大规模使用，在互联网、金融等行业有超过 2000+ 企业用户在生产环境中长期运行。与此同时，SelectDB 能够为企业提供 12-36 个月的长周期版本支持，以确保在系统功能快速迭代的同时稳定运行。
SelectDB 具备安全可控、运维与使用便捷等优势，满足企业对于数据仓库落地多方面能力诉求。SelectDB 安全可控。在安全方面，SelectDB 在从产品架构上提供多种安全保护特性，包含资源隔离、认证鉴权、网络安全、数据保护、安全审计等；同时提供透明化的平台运营服务，客户可自助查看云资源安全策略、获取数仓访问审计日志、审核平台方线上操作视频记录等；此外，SelectDB 也认证了安全合规标准，确保数据安全和合规性，目前已获得等保三级、ISO/IEC 27001/27017/27018 等六项 ISO 认证，并通过了可信数据库的测评。
SelectDB兼容 MySQL 协议并配备周边工具，以此降低使用与运维门槛。围绕数据仓库的开发、运维和管理等过程，SelectDB 为产品均配备了一系列的可视化运维与开发工具，赋予用户全生命周期的运维管理能力，降低企业人员的使用门槛。此外，SelectDB 支持标准 SQL 并兼容 MySQL 协议，用户可以使用 MySQL 客户端、JDBC 标准协议以及各类 BI 产品来连接 SelectDB。
SelectDB 具备云原生的优势。基于云原生特性，SelectDB Cloud 实现了从部署到管理的全托管模式，支持分钟级别的平滑扩容和升级、分布式集群自管理等，降低集群日常运维压力。
在服务层面，SelectDB 提供来自 Apache Doris 核心开发团队的技术服务。SelectDB 搭建了专业的技术支持团队，能够做到 7*24 小时为企业用户提供服务。在团队组成上，SelectDB 是 Apache Doris 项目的主要研发团队之一，公司技术团队成员大多曾就职于大型互联网公司或公有云厂商，拥有丰富的数据库运维管理经验，能够为企业提供可靠的技术支持。

典型客户：

中国某大型汽车公司、某头部公募基金、某移动支付公司、某大型互联网数科公司、某银行消费金融

3.2 分析型关系数据库

市场定义：

分析型关系数据库是指能够对各种来源的结构化数据，以及半结构化和非结构化数据进行存储和计算分析的数据管理系统。分析型数据库能够执行即席查询和复杂分析,满足业务分析或商业智能的需求。

甲方终端用户：

企业数据部门、IT部门

甲方核心需求：

企业数据分析的应用场景正变得更广泛和更复杂。一方面，通过数据分析和洞察提升经营效率、改善客户体验已经成为企业共识，企业正将数据分析应用在经营、供应链、产品、营销、服务等多种场景中，如通过数据实现精准营销、提供个性化推荐、提升供应链效率等。另一方面，企业数据分析场景也日益复杂，时效性从T+1离线分析转向实时分析，分析难度从简单聚合到即席分析、机器学习等复杂分析，数据体量也从小数据体量转向PB级大数据体量。在以上背景下，企业对分析型数据库提出了更高要求。企业对分析型数据库的核心需求包括：

提供高效的查询分析性能。一方面，分析型数据库要能支持企业内部逐渐增长的实时分析场景。面对激烈的市场竞争和快速变化的客户需求，如何提高“用数”效率，以实时或准实时的数据处理速度进行决策、开展服务以及优化运营，正成为企业获取竞争优势的关键。目前越来越多行业和场景开始要求高时效性，除金融业的实时决策、实时风控外，电商的实时推荐、用户行为分析、广告投放，制造业的生产过程监控，以及运输业的供应链监控等均要求秒级或毫秒级的时效性，来优化体验、提高效率、降低成本。传统企业基于Oracle、MySQL搭建的传统查询分析引擎在面对海量数据高并发、实时查询场景响应缓慢。企业需要分析型数据库支持实时数据分析场景。
另一方面，分析型数据库要对离线数据有较高的查询分析性能。在企业对PB级历史数据进行即席分析、机器学习等复杂分析时，企业需要分析型数据库具备完成复杂运算的能力，并在尽可能短的时间内获取查询结果。
具备存算分离架构，资源弹性可扩展，降低资源成本。企业数字化转型日益深入，业务规模持续扩张，以及在移动应用、IoT等技术的推动下，企业数据体量持续增长。由于多数传统企业的数据库多基于MPP架构，存储与计算耦合，无法随业务发展而灵活扩展，极易导致系统性能下降或服务中断，需要数据库具备存算分离架构。并且由于OLAP应用的负载通常具有峰谷特性和随机性，要求分析星数据库具备资源弹性共享和资源隔离的能力，在保证性能和SLA的情况下降低资源成本。
降低开发运维成本和难度。传统企业常面临着复杂的数据分析链路的开发和运维。首先，企业数据源多样，除企业ERP、财务、人力、供应链等业务系统造成的数据孤岛外，企业数据基础建设中引入的数据库、数据仓库、数据湖、消息队列等设施也构成部分数据源。其次，数据集成由批处理线路和流处理构成，开发运维人员需要在集成过程中保证数据质量、数据一致性以及转化数据格式等，技术门槛高。此外，在对数据进行分析时，需要针对不同的业务场景，提供星型、雪花型、宽表等不同的建模方式，开发运维人员需要监控维护不同的数据模型，又带来额外的工作量。

厂商能力要求：

基于上述甲方企业核心需求，分析型数据库厂商应具备以下能力：

厂商提供的分析型数据库应提供高性能支持。一方面针对实时数据分析场景，厂商应对高并发、高吞吐、复杂查询等不同场景进行针对性性能优化，包括不限于全局字典、物化视图、优化器、自研引擎等，以提高数据库实时场景下的查询分析效率。另一方面，针对离线分析场景，厂商提供的分析型数据库应提供高效的列式存储和高性能的数据存取，具备跨多表、多维聚合能力，支持即席分析、复杂分析、机器学习等多种复杂分析场景。
支持云原生架构和资源隔离。厂商分析型数据库产品应支持云原生架构，支持存储计算分离，并且支持动态扩缩容，以应对业务峰谷波动。此外，厂商应提供读写分离、计算资源隔离、配额和限额、优先级管理等技术，确保一个应用的高负载不会影响其他应用。
支持多数据源集成和多种建模方式。厂商提供的分析型数据库应支持多种数据源接口，对接多种数据源，如离线数据源Oracle、MySQL、HDFS，以及实时数据源Kafka、Flink等，进行读取和集成，并保证集成过程中的数据一致性。或者厂商产品能够支持数据联邦，在不需要对数据进行整合的前提下对多源异构数据的进行统一的查询分析。此外，厂商产品应提供了星型、雪花、大宽表、预聚合等方多种数据建模方式，简化数据管理和维护，优化查询性能。
支持通过Web界面开展开发和运维。厂商产品应提供Web界面支持开发和运维人员使用，其中开发人员可以通过Web界面访问开发工具、集成开发环境（IDE）或代码编辑器，进行软件编写、调试和测试，运维团队可以通过Web界面监控系统的运行状态、性能指标和日志，实施故障排查和性能优化。

入选标准：

1. 符合分析型关系数据库市场分析的厂商能力要求；

2. 近一年厂商在该市场至少服务10家企业；

3. 近一年厂商在该市场合同收入不低于1000万元。

代表厂商评估：

火山引擎

厂商介绍：

火山引擎是字节跳动旗下的云服务平台，将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业，帮助企业构建体验创新、数据驱动和敏捷迭代等数字化能力，实现业务可持续增长。

产品服务介绍：

ByteHouse是火山引擎旗下的一款云原生数据仓库，继承了开源 ClickHouse 的高性能和强大的分析能力，并在架构上遵循新一代云原生理念进行全面重构，实现了容器化、存储计算分离、多租户管理和读写分离等功能。ByteHouse能同时支撑实时数据分析和海量数据离线分析，尤其对高吞吐、高并发、复杂查询等多种实时数据分析场景进行优化，能为用户提供极速分析体验。

厂商评估：

ByteHouse在ClickHouse基础上进行重构和优化，能为实时数据场景提供极致性能，其云原生架构支持存算分离、弹性扩缩容，具备高灵活性和可靠性。进一步，ByteHouse在数据库的部署、运维方面提供企业级工具支持，简单易用。基于内外部的广泛应用，ByteHouse将为用户提供持续的服务支持。

ByteHouse具备高性能，支持用户在实时数仓、复杂查询、宽表查询、高并发等数据分析场景中实现毫秒、秒级延迟。ByteHouse针对不同的数据分析场景进行了一系列优化，来缩短查询执行时间、优化资源利用，提供更流畅的数据分析体验。
如在高吞吐的实时数仓场景下，针对实时数据流的接入，ByteHouse自研表引擎HaKafka Engine具备高可用性，保证了At-least-once消费语义，保障数据消费过程中的可靠性和完整性，以及提供Flink Connector 将Flink数据加载到ByteHouse，可支持每秒220万的实时数据读写。针对CDC实增量数据同步，ByteHouse提供DES数据快车服务实现多元异构数据秒级同步到目标端，同步性能可达到25万 record/s 以上，并引入了MaterializedMySQL 数据库引擎，实现基于 MySQL Binlog 机制的业务数据库实时同步功能。针对数据写入环节，ByteHouse自研了unique引擎，支持每秒百万级的实时数据的upsert场景。
针对复杂查询场景，为提高查询效率，减少资源消耗，提升系统性能，ByteHouse进行了RBO（基于规则的优化能力），CBO（基于代价的优化能力），分布式计划优化来优化查询执行计划，以及执行层的优化。
针对宽表查询场景，ByteHouse通过提供物化视图，优化Zero copy、Projection，支持全局字典等方式提升宽表查询性能。
针对高并发点查场景，ByteHouse在纯列存模式上通过TopN 短路计算、唯一键索引、读链路优化等提升点查场景的查询性能，如ByteHouse在某游戏广告推荐业务上，在256 Core 算力基础上，可支持 10万+QPS。
ByteHouse遵循新一代云原生理念，实现存储计算分离、资源隔离、读写分离和多租户管理等功能，具备极强的扩展性，显著提高资源利用效率，降低企业成本。ByteHouse 基于云原生架构，结合 Shared-nothing 的计算层以及 Shared-everything 的存储层，有效避免了传统 MPP 架构中的 re-sharding 问题，新架构能灵活调配计算资源和存储资源，支持计算和存储层的水平扩展，面对PB级海量数据时实现秒级响应。
ByteHouse提供多级资源隔离，保障用户资源安全，包括多租户管理，读写分离和计算资源隔离等，确保查询任务不会互相影响。ByteHouse支持通过计算组概念，对宿主机硬件资源进行灵活切割分配，按需扩缩容。支持读写分离资源管理，杜绝大查询占用大量资源导致其他任务性能下降。支持多租户管理，用户可按租户对计算资源、数据资源、作业任务和用户权限进行隔离，一方面保证性能可控，另一方面也能监控各租户的数据与资源使用情况。
ByteHouse在数据库的部署、运维、集成等方面具备高易用性。ByteHouse支持Web界面开展软件开发和运维任务，降低使用门槛，如开发和运维人员可通过Web界面写SQL、调试脚本，开箱即用，省去复杂的配置任务。
ByteHouse提供全托管云服务，监控体系完善。运维人员可通过可视化资源监控和管理平台，监控集群整体状况，实现租户管理、报警监控、审计日志、扩缩容等核心功能，降低运维成本。
此外，ByteHouse支持丰富的生态兼容，降低企业异构系统开发运维成本。如在SQL语义层面兼容 ANSI 2011 的标准，兼容开源社区 ClickHouse标准以及兼容MySQL语义，使得ByteHouse能支持多类型的查询和分析需求，包括标准SQL查询、高性能的分析查询以及事务处理，具有极强的通用性，可广泛适应企业业务场景。此外，在连接协议上补充兼容MySQL，使得企业原本基于MySQL的开发、运维等生态工具能无缝链接到ByteHouse上，简化迁移成本，保持MySQL业务的连续性和稳定性。
基于内外部丰富服务经验，为用户提供持续服务支持。截至 2022 年 3 月，ByteHouse 在字节内部部署规模已超过1万8000台，单集群超过2400 台，管理总数据量超过700PB，经过数百个应用场景和数万用户锤炼。在外部企业客户中，ByteHouse也已经广泛应用于互联网、游戏、金融、汽车、气象等多领域，能显著提升企业经营效率。如仟传网络通过ByteHouse替换Elasticsearch，采用多副本机制提高并发能力，支持仟传网络舆情数万QPS在线点查服务，做到高吞吐、低延时、高稳定。此外ByteHouse灵活的资源模型也使仟传网络资源灵活可扩展，节省60%资源成本。

典型客户：

大地量子、海王集团、莉莉丝游戏、仟传网络、永达汽车

3.3 搜索型数据库

市场定义：

搜索型数据库是基于分词、索引等技术对结构化、半结构化、非结构化等数据类型进行全文搜索或信息检索的数据库，其搜索结果可按算法排序。

甲方终端用户：

企业数据部门、IT部门

甲方核心需求：

搜索型数据库能对数据全文进行搜索，实现对非结构化数据的高效处理分析，是企业复用知识经验、提高经营效率的有效方式。企业对国产搜索型数据库的需求具体如下：

适应企业一到多个内容检索场景。企业不同场景下对搜索型数据库的功能需求不同，如员工查询公司规定流程或是对专业知识进行检索的场景，需要搜索型数据库具备全文检索功能；电商平台对销售额、用户行为、热门商品进行分析场景下，需要搜索型数据库具备聚合分析来计算总销售额、各类商品销售额、用户平均销售额等，协助电商平台优化商品推荐策略；社交媒体中或跨国媒体生成场景下，需要搜索型数据库支持多语种的全文检索和内容推荐等。
满足企业海量数据场景下的实时、高并发访问需求，并提供高质量的搜索结果。与结构化数据不同，企业非结构化数据类型丰富且增长迅速，搜索型数据库需要适应企业持续丰富的数据类型和持续增长的数据体量。一方面，搜索型数据库需要满足用户对快速响应的需求，提高用户体验，如股票交易、外汇交易等场景下，需要搜索型数据库的高时效性支持实时交易决策以及监控市场波动；如用户在社交媒体中对新闻的实时检索、电商平台中消费者对商品价格、促销信息和库存的实时检索等，都需要搜索型数据库具备高时效性。另一方面，企业面向C端的内容搜索场景需要满足上千、上万甚至更多人同时在线使用，需要搜索型数据库具备高并发性。而在搜索结果上，搜索型数据库的搜索结果应适应业务场景需求，可靠可用。

厂商能力要求：

基于上述甲方企业核心需求，搜索型数据库厂商应具备以下能力：

厂商应具备分词、数据索引、排序等技术，提高数据检索效率。用户业务场景不同，对分词算法要求不同，如中文环境下，分词算法应支持对中文文本切分，而在多语种搜索场景下，分词算法还应支持中日韩、英法德等多语种切分。针对数据索引，厂商应提供不同场景的索引类型，如针对文本全文搜索提供全文索引，支持用户进行关键词搜索、短语搜索等，针对地理位置查询提供地理空间索引。针对排序，厂商应具备单一字段排序、多字段组合排序、相关性排序、地理位置排序等多种排序算法，适应用户诸如价格排序、销售额和价格排序、文档搜索、地理搜索等不同场景。
厂商应同时兼具软、硬件专业性，可灵活满足客户性能、数据体量等需求。如针对OA系统与大数据搜索系统数据量级不同的情形，厂商应能提供虚拟机或云服务等不同的资源配置；而针对如政府数据库要求高并发、金融数据库要求实时响应等不同的性能需求，厂商应能从系统扩展性、索引优化、缓存机制、负载均衡等多方面进行优化，满足客户需求。
支持分布式数据架构。厂商应具备分布式存储技术，支持海量数据存储并随着企业业务增长而弹性扩展，通过多副本机制实现数据服务高可用，支持高并发，在大量用户请求下仍能保持毫秒级查询速度。同时，厂商也应支持自动故障恢复、多租户与冷热数据分层存储等功能。此外，在数据安全保护方面，厂商应提供权限管理、加密存储等机制保障数据访问和数据存储的机密性。

入选标准说明：

1. 符合搜索型数据库市场分析的厂商能力要求；

2. 近一年厂商在该市场至少服务10家企业；

3. 近一年厂商在该市场合同收入不低于500万元。

代表厂商评估：

拓尔思

厂商介绍：

拓尔思信息技术股份有限公司（简称“拓尔思”）成立于 1993 年，是一家专业的大数据、人工智能和数据安全产品及服务提供商。拓尔思坚持核心技术自主研发，拥有 50+专利、1000+软件著作权，在搜索型数据库、自然语言处理（NLP）技术的技术创新和应用场景落地等方面保持领先地位。

产品服务介绍：

TRS海贝搜索数据库（简称“海贝”）是一款从内核到系统完全国产自研的搜索型数据库，其定位为大数据应用支撑软件，为大数据应用提数据存储、信息检索、统计分析等数据管理服务，支持多种类型的数据，包括文本、数字、地理空间、图片等。

厂商评估：

海贝在搜索型数据库市场中以其自主研发和自主可控的特点脱颖而出。海贝不仅在底层技术如搜索引擎、分词和倒排索引上实现自主研发，还与国产软硬件深度适配，强化了市场竞争力。在数据安全方面，海贝采取了包括HTTPS、加密存储在内的多重防护措施，并提供了金融级的数据安全标准。检索技术上，海贝融合了全文索引和向量索引，进一步拓展了信息检索的能力边界。拓尔思通过全国性的服务网络，确保了对企业客户需求的快速响应。此外，海贝能够与拓尔思的其他产品线深度集成，提供从数据采集到分析的一站式解决方案，满足企业的综合需求，展现了其在企业级市场中的独特价值。

海贝坚持自研道路，满足企业自主可控需求。在当前的搜索型数据库市场中，众多厂商选择基于开源技术如Elasticsearch进行产品开发，以期快速响应市场需求并降低研发成本。然而，海贝选择了一条不同的道路，即完全自主研发。从底层的搜索引擎、分词技术到上层的倒排索引机制，海贝的整个系统均由拓尔思独立开发，满足了市场对于自主可控解决方案的需求。
进一步地，海贝在兼容性方面也展现了其灵活性和前瞻性。通过与国内领先的芯片如龙芯、海光、飞腾、鲲鹏等，以及操作系统如中标麒麟、统信UOS等进行深度适配，海贝不仅增强了其产品的市场竞争力，也为寻求构建国产化信息技术体系的企业提供了有力支持，有助于企业实现技术自主可控的目标。
海贝采取多重防护措施，保障企业数据安全。搜索型数据库领域，数据的安全性是企业最为关注的核心议题之一。海贝通过实施精细化的权限管理机制，确保数据访问的合法性和合规性。此外，通过采用HTTPS协议和加密存储技术，海贝进一步保障了数据在传输和存储过程中的机密性。海贝的数据加密功能不仅限于基本的数据保护，还支持与国产加密卡的集成，实现了金融级别的数据安全标准。另外，海贝还具有其他同类产品不具备的独有安全特性，如黑白名单、用户隔离、删除保护等机制。
海贝引入向量技术，拓展检索的能力边界。在搜索型数据库的领域，海贝通过其先进的技术架构，实现了全字段索引的能力，这使得它能够支持多维度的复杂查询，显著提升了数据查询和分析的效率。海贝不仅在基础功能上表现出色，更通过引入内存索引、列存储、索引分片以及冷热数据自动分区等先进技术，进一步优化了数据的存储、检索和分析性能。
海贝的技术创新并不止步于此，其在全文索引的基础上，融合了向量索引技术，这一融合进一步拓展了海贝检索的能力边界。向量索引技术的引入，配合拓尔思拓天大模型，可以进一步实现语义搜索、多模态搜索以及跨模态搜索等，满足大模型时代数据管理的底层需求。
拓尔思建立全国性服务网络，快速响应企业客户需求。鉴于搜索型数据库在企业IT架构中的核心地位，其稳定性和可靠性对于企业运营至关重要。拓尔思作为中文检索领域的资深企业，拥有近30年的行业经验，服务了众多企业客户。在技术与产品实力之外，拓尔思的服务响应能力同样受到客户的高度评价。
为了更好地服务全国客户，拓尔思已在北京、上海、广州和成都等关键城市设立了四大区域分公司，并在各省设有办事处，形成了覆盖全国的服务网络。这样的布局确保了拓尔思能够为本地项目提供及时的技术支持，满足客户对快速响应的需求。
在遇到分公司和办事处难以独立解决的技术问题时，拓尔思建立了一套高效的反馈机制，能够迅速将问题上报至总部的研发中心。研发中心凭借其深厚的技术积累和专业团队，能够提供更为深入和专业的解决方案，确保客户问题能够得到及时且有效的处理。
海贝深度集成拓尔思产品生态，满足企业真实需求。在企业级市场中，搜索型数据库通常不是独立采购的对象，而是作为满足特定项目需求的一部分。这些需求往往跨越了数据采集、加工、存储、检索和分析等多个层面，有时甚至包括上层应用系统的采购。在这种情况下，如果企业需要从多个供应商处采购不同的产品，可能会导致产品间的不兼容，从而影响业务的流畅运行。
海贝作为拓尔思旗下的产品，其一大优势在于能够与拓尔思的其他产品线进行深度集成，形成一套完整的解决方案。在数据导入方面，海贝可以无缝对接TRS海聚数据融合平台，结合TRS人工智能平台，实现数据的高效加工和流转。这种集成不仅简化了数据处理流程，也提高了数据的可用性和价值。在数据展现层面，海贝通过与TRS API Gateway的集成，能够实现快速发布数据，Restful接口、权限管理和流量控制。此外，海贝还可以对接拓尔思全新的数据监控系统，能够进行数据监控、进程监控、服务监控以及日志分析，确保了数据的安全性和系统的稳定性。在数据分析方面，海贝可以与TRS水晶球分析师平台、TRS网察大数据分析平台和TRS数家媒体大数据平台等进行集成，提供行业应用解决方案，为用户提供便捷高效的在线服务。

典型客户：

市场监督管理总局、国家知识产权局、新华社、中科院、国家开发银行