当前位置：首页 > article >正文

【大数据学习 | kafka高级部分】kafka的快速读写

article 2025/1/22 15:44:38

1. 追加写

根据以上的部分我们发现存储的方式比较有规划是对于后续查询非常便捷的，但是这样存储是不是会更加消耗存储性能呢？

其实kafka的数据存储是追加形式的，也就是数据在存储到文件中的时候是以追加方式拼接到文件末尾的，这样就非常快速的跳过了文件的检索。

机械磁盘的文件检索需要使用到磁头进行不断扫描数据，如果存储大量的小文件或者存储位置不同的时候需要不停的扫描检索文件的位置，这个过程是非常浪费时间的，但是kafka的数据完全以追加的方式存储到磁盘中的，那么这个时候就完全省去了这样的一个过程，使得机械磁盘的性能和固态的性能相差无几索步骤。

我们可以看到经过测试，机械磁盘的存储性能可以达到600M/s 但是随机读写就比较慢100k/s

所以追加写造就了kafka的高写入性能。

写入的速度非常快，那么读取的性能是如何保证的呢？

首先kafka的数据就是以分区作为单位进行分布式管理的，所以多个机器共同管理，效果更加明显

前文中说过kafka的存储是按照segment切分的，并且存储的数据是带有index索引的，这个速度可以几乎直接定位到相应的检索文件。

并且kafka还实现了零拷贝技术。

2. 零拷贝技术

首先我们可以看到普通的存储在磁盘上的文件要想发送出去的话，需要走以上的步骤

通过内核和用户空间的加载，反反复复经过4次加载和拷贝过程，这个过程是非常消耗性能和io的

其实直白来说，如果数据加载的过程中不走用户缓冲区的话直接以内核加载一次的方式进行传输效率是更加高效的。

所以使用到零拷贝技术，方式就是只将数据从磁盘加载到内存中一次，然后直接从内核空间将数据发送到网卡从而直接传输给消费者端。

零拷贝技术的本质就是怎么减少数据的复制过程，并不是没有数据的复制。

这个实现方式就是使用到sendFile的系统函数，它可以直接实现系统内存的映射。

查看全文

http://www.kler.cn/a/389461.html

【二叉树的深搜】计算布尔二叉树的值求根节点到叶节点数字之和

numpy库ndarray维度问题

小哆啦解题记：如何计算除自身以外数组的乘积

【整体介绍】

线程池 | java中的多线程

使用LPT wiggler jtag自制三星单片机(sam88 core)编程器-S3F9454

道品科技水肥一体化在农业生产中的必要性与应用领域探讨

微服务架构面试内容整理-消息驱动-RocketMQ

redis RDB持久化技术

mysql第二次作业---单表和多表查询

Rust性能优化与调试之性能基准测试

如何使用SparkSQL在hive中使用Spark的引擎计算

全网最详细的自动化测试（Jenkins 篇）

企业知识库管理系统的创新模式及其智能化转型

45期代码随想录算法营总结

股票短线的建议（学习）- 20241111

.net core开发windows程序在国产麒麟操作系统中运行

catchadmin-webman 宝塔部署

web——[SUCTF 2019]EasySQL1——堆叠注入

Oracle OCP认证考试考点详解082系列18

HTTP协议基础

【报错记录】Steam迁移(移动)游戏报：移动以下应用的内容失败：XXX: 磁盘写入错误

时序预测 | gamma伽马模型锂电池寿命预测 EM算法粒子滤波算法结合参数估计

健身房业务流程优化：SpringBoot解决方案

Python面试题一

FBX福币交易所创指半日涨1.95%，中兴通讯直线涨停

1. 追加写

2. 零拷贝技术

相关文章：