提升地理空间分析效率,火山引擎ByteHouse上线GIS能力
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
在数字化时代,地理空间分析(Geospatial Analytics)成为辅助企业市场策略洞察的重要手段。无论是广告投放的精准定位,还是电商物流的效率优化,都离不开对地理空间数据的查询、分析和可视化处理,以便助力企业更好决策。
一些传统的地理信息系统数据库具备丰富的地理空间对象结构、成熟的空间索引能力,在导航、旅游、智能城市等典型应用场景中被广泛使用。随着实时分析报表等 OLAP 市场的扩大,地理空间分析也作为新的增值特性被业界几大 OLAP 主流产品所推广。OLAP+GIS 能力在满足用户地理空间数据分析的基础上,还能在数据体量大、实效性要求高的情况下,满足业务高性能查询的需求。
作为火山引擎推出的一款 OLAP 引擎,ByteHouse 近期发布了高性能地理空间分析 GIS 能力,为位置洞察、人群圈选等场景提供高性能地理数据分析服务。
在功能层面,ByteHouse 兼容 OGC 标准,支持导入标准 GIS 文件格式,目前已支持超过 50 个主流的空间函数。为了提供更极致的使用体验,ByteHouse 还在探索自研优化器适配 GIS 特性,以及 GPU 硬件层面优化二维空间函数。
更值得一提的是,在关键性能上,ByteHouse GIS 在列式小批组织的数据结构上引入 RTree 等二维空间索引能力,并在 CPU 硬件层面实现了二维空间函数的性能优化,整体提升了端到端性能。
在 Benchmark 测试中,通过选取两个关键 GIS 函数ST_DistanceSphere
和 ST_Within
,使用 NYC Taxi 数据集(Size:21GB;条数:169,001,162),并选取 3 个不同大小的地理区域,研发人员将 ByteHouse、StarRocks、 ClickHouse Community、PostGIS 、 DuckDB Spatial 进行性能对比。测试结果显示,ByteHouse 在优化器、硬件等层面的优化,使其在测试函数的性能上显著超越其他产品。
据火山引擎 ByteHouse 技术专家介绍,“对比传统地理信息系统数据库,ByteHouse 将 OLAP 和 GIS 结合起来,一方面具备 OLAP 的高效查询和计算的优势,另一方面,空间数据对象按照列的方式存储,不仅节省存储空间,更能充分发挥向量化的优势,特别是在空间函数层面,还能利用硬件并行化能力提速。”
目前,ByteHouse GIS 已经在 POI 洞察、作战地图、人群圈选、拓店选址等场景为相关需求方落地地理空间分析服务。以有配送需求的业务场景举例,在 ByteHouse GIS 能力支持下,运营人员可以在地图中圈选出特定多边形,观察多边形内部商家的供给和客流量,显示配送员的位置和配送状态,实现更有效地调度资源,提高配送效率。
在电商场景中,ByteHouse GIS 能力不仅满足平台商家运营快速分析商家经营状态、管理商家的需求,还将数据读取量减少超过 50%,进一步降低了磁盘 IO 以及计算带来的 CPU 开销。
不仅仅在 GIS 能力上具备极致性能,ByteHouse 基于分布式架构设计,可以轻松地水平扩展,处理 PB 级别的数据,还完全兼容云原生技术栈,支持弹性资源调度,能够根据实际需求动态调整计算资源,并且具备自动化运维功能。未来,ByteHouse 也会持续为用户提供卓越的数据处理和分析体验,助力企业实现数字化转型和智能化升级。
点击跳转ByteHouse-火山引擎了解更多