当前位置: 首页 > article >正文

浅谈VPP与DPDK技术以及产业界应用实例

完整内容请参考浅谈VPP与DPDK技术以及产业界应用实例 - 星融元Asterfusion


 

VPP(Vector packet processing)是 Linux 基金会下FD.io项目的一部分。VPP 的目标是提供一个快速的L2-L4 用户态网络堆栈,该堆栈可在x86、Arm 和 Power 等常见架构上运行。VPP 从网络 IO 层读取最大可用数据包矢量,然后通过数据包处理图(Packet Processing graph)处理这个矢量。VPP集成了DPDK(Data Plane Development Kit)项目,通过它直接访问硬件网卡资源。

什么是矢量包处理?

与矢量包处理相对的是传统的“标量(scalar)”处理。在标量处理模式下,系统一次仅处理一个数据包,完成整个包处理流程后再处理下一个包。在这种模式下,每个数据包都需要独立分配计算资源、缓存管理、并经历上下文切换。当网络I/O速度很高时,这些额外的开销与处理单个包的时间相近,导致效率低下。

矢量包处理概念

矢量处理通过引入以下改进克服了标量处理的不足:

  1. 批量处理多个数据包:VPP通过将一组数据包(典型为64个或更多)组合成一个“矢量”,在每个节点中一次性对这些数据包进行处理。与逐个包处理相比,这种方式分摊了资源准备和上下文切换的开销,从而显著提升了矢量中每个数据包的处理速度。
  2. 利用SIMD并行处理能力:现代CPU的Single Instruction Multiple Data(SIMD)指令集能够通过单条指令同时对多个数据执行相同的操作。相比于传统的“每次仅处理一个数据”的方式,SIMD显著提高了运算速度。例如,Marvell OCTEON 10 ARM Neoverse N2处理器支持的SVE2(Scalable Vector Extensions Version 2)允许灵活配置128位到2048位的矢量长度。在2048位配置下,一条指令可以同时处理高达64个IPv4地址,从而大幅提升网络数据流的处理能力。
  3. 优化缓存利用:现代CPU通常具备较大的L1/L2缓存。矢量处理可以将多个数据包一次性加载到高速缓存中,减少对内存的频繁访问。例如,Marvell OCTEON 10 ARM Neoverse N2处理器拥有64KB的L1缓存,可以一次存储约42个1500字节的完整数据包或3276个IPv4包头,从而减少了多次的缓存-内存交换,进一步提高了包处理效率。

简言之,矢量包处理通过批量化、并行计算和缓存优化,有效提升了处理速度,特别适用于高性能网络环境。

VPP Host

VPP的优势:用户态网络协议栈

传统的Linux网络协议栈工作在内核态,注重通用性和软件灵活性,但在高性能网络中存在瓶颈,主要问题包括:

  1. 内核态与用户态切换开销:用户态程序处理网络数据时需要频繁切换到内核态,带来显著的延迟,特别是在高流量场景下。
  2. 逐层处理开销:协议栈按OSI模型逐层处理,每层都涉及协议解析和数据拷贝,导致效率低下。
  3. 软中断和单线程限制:Linux内核的网络栈主要依赖软中断和单线程处理,无法充分利用多核CPU的优势,特别是高并发时。即使通过RSS(Receive Side Scaling)将不同的数据流分配到多个CPU核心,仍然存在调度和同步的开销,无法实现完全并行处理。

VPP在用户态实现了完整的网络协议栈,包括IP, TCP, Session层和应用层公共库。

它解决了传统Linux协议栈的一些问题:

  1. 减少上下文切换:VPP在用户态运行,避免了用户态和内核态之间的切换,利用DPDK直接访问网卡,跳过了内核的网络协议栈。
  2. 融合协议处理:VPP将IP、TCP、Session等协议层结合在一起,减少了协议层之间的冗余数据传递,数据包不需要在每层之间进行反复的数据拷贝和传递,因为这些协议层的处理是在同一内存区域中完成的。
  3. 用户态多线程处理:与内核态的单线程处理模型不同,VPP充分利用现代CPU的多核和多线程能力,并在用户态中通过线程池并行处理多个数据流。用户态的线程调度开销更小,任务分配更灵活,借助多线程,VPP能够将网络流量有效地分布到多个CPU核心,近乎线性地提升网络吞吐量。

简言之,用户态网络协议栈技术使得VPP通过减少内核态与用户态切换、融合协议层处理、多线程优化和直接硬件访问,显著提升了高并发和高吞吐量场景下的网络性能。

未完待续......

 完整内容请参考浅谈VPP与DPDK技术以及产业界应用实例 - 星融元Asterfusion


http://www.kler.cn/a/515653.html

相关文章:

  • doris:腾讯云 COS导入数据
  • postgresql15的启动
  • Spring Boot整合Thymeleaf、JDBC Template与MyBatis配置详解
  • 第7章:Python TDD测试Franc对象乘法功能
  • 【Qt 常用控件】显示类控件——QLabel
  • 二十七、资源限制-LimitRange
  • 【AI编程】记录一下windsurf中Write模式和Chat模式的区别以及 AI Rules的配置方法
  • Azure学生订阅上手实操:在Ubuntu VPS上利用Docker快速部署PostgreSQL数据库
  • 考研408笔记之数据结构(四)——树与二叉树
  • C++:利用二维数组打印杨辉三角形。
  • 基于Spring Boot3 + Vue3 + JDK17的现代化的Java应用开发框架
  • MATLAB中insertAfter函数用法
  • 自动化01
  • 【ElementPlus】在Vue3中实现表格组件封装
  • 超越 GPT-4o!从 HTML 到 Markdown,一键整理复杂网页;AI 对话不再冰冷,大模型对话微调数据集让响应更流畅
  • 使用 Aryn DocPrep、DocParse 和 Elasticsearch 向量数据库实现高质量 RAG
  • ASP .NET Core 学习(.NET9)部署(一)windows
  • WordPress Fancy Product Designer插件Sql注入漏洞复现(CVE-2024-51818)(附脚本)
  • CSS中选择器的分类
  • 代码编写java代做matlab程序代编Python接单c++代写web系统设计
  • FastExcel:高性能Excel处理框架
  • Nacos 和 Zookeeper
  • Go语言通过Casbin配合MySQL和Gorm实现RBAC访问控制模型
  • ES的聚合:定义与技术特点
  • arkime和elasticsearch 安装方法三
  • 记录一次k8s起不来的排查过程