语义通信论文略读(十四)线性编码和传输的优化+边缘服务器执行CV任务
CV-Cast: Computer Vision–Oriented Linear Coding and Transmission
CV-Cast:面向计算机视觉的线性编码和传输
· 作者: Jakub Zádník, Michel Kieffer, Anthony Trioux, Markku Mäkitalo, Pekka Jääskeläinen
· 所属机构: Tampere University, University of Paris-Saclay, Xidian University
· 关键词: 目标导向通信, 计算机视觉, 联合源信道编码, 线性编码和传输
· 时间:2024 年 10 月 15 日
· 期刊: IEEE Transactions on Mobile Computing( Early Access )
研究背景:
1. 远程推理与边缘计算: 为了延长电池寿命并允许在边缘运行更复杂的模型,将神经网络(NN)推理卸载到附近的边缘服务器是一种有吸引力的选择。
2. 数字悬崖问题: 传统的熵编码流在实际信道质量低于设计预期时,可能会遇到所谓的数字悬崖,即重建误差的突然增加。
3. 线性编码和传输(LCT): LCT是一种联合源信道编码方案,仅依赖线性操作,允许根据无线信道质量实现重建的像素误差。
4. 目标导向通信: 与传统的任务无关通信架构不同,目标导向的JSCC方案为任务性能优化源和信道编码。
研究方法:
1. CV-Cast方案: 提出了一种新的LCT方案,通过优化YUV颜色变换、块选择和功率分配来最小化NN损失的增加。发射端没有直接包含神经网络(NN)模块。CV-Cast方案主要关注的是线性编码和传输(Linear Coding and Transmission, LCT)的优化,以适应计算机视觉任务的准确性,而不是每个像素的失真。CV-Cast方案通过调整YUV颜色变换、块选择和功率分配来优化由NN执行的计算机视觉任务,但这些优化是在离线进行的,不需要重新训练或修改NN本身。CV-Cast方案的目的是在发射端进行压缩和传输,以最小化对NN损失的影响,而不是在发射端直接执行神经网络处理。接收端在解码后将数据送入NN进行计算机视觉任务的处理。
2.优化块选择和功率分配: 通过最小化损失失真来推导出最优块选择策略和功率分配系数。损失失真是指由于压缩和传输噪声导致的神经网络(NN)损失的变化。它被定义为损失变化的期望值,与输入RGB像素和通道噪声有关。为了最小化损失失真,首先需要计算损失函数关于离散余弦变换(DCT)系数的梯度。这个梯度表示了NN对不同空间频率的敏感度。通过最小化损失失真,可以确定哪些块应该被传输以及每个块的功率分配。具体来说,块的选择是基于块方差和梯度范数的乘积的降序排列,而功率分配系数βk是通过最小化损失失真的表达式来确定的。
3.CV-Cast实践: 在训练阶段评估CV-Cast参数以最小化选定CV任务的损失失真,在处理阶段使用这些参数进行实际编码、传输和解码。
实验设计:
1. 模拟设置: 使用Sionna模拟UMa信道模型,考虑单用户终端到四天线基站的传输。
2. 默认配置性能: 选择256块、ZFE和全帧DCT作为默认配置,比较CV-Cast与基线LCT的性能。
3. 改变块大小: 分析块大小对NN准确性的影响,选择64、256和1024块进行评估。
4. 改变估计器: 比较零强迫估计(ZFE)和线性最小二乘估计(LLSE)对性能的影响。
5. 改变DCT划分: 比较全帧DCT和基于块的DCT在性能上的差异。
6. 泛化能力: 展示CV-Cast在不同模型之间的泛化能力。
7. 视觉比较: 对比CV-Cast和基线LCT在不同信噪比下的视觉效果。
8. 5G信道模型仿真: 使用5G信道模型评估CV-Cast的性能。
9. 与JPEG和LIC-TCM比较: 对比CV-Cast与JPEG和LIC-TCM在5G信道模型下的性能。
10. 计算复杂度: 分析CV-Cast与其他方案在计算复杂度上的差异。
结果分析:
CR代表压缩率
C
R
=
K
N
CR = \frac{K}{N}
CR=NK
1. 默认配置性能: CV-Cast在默认配置下,与基线LCT相比,在语义分割和对象检测任务中,传输符号数量减少了28%和15%,同时保持相同的准确性。
2. 改变块大小: 减小块大小可以提高NN的准确性,但会增加计算复杂度和元数据传输开销。
3. 改变估计器: LLSE在大多数情况下比ZFE更优,但在FastSeg小模型变体中,ZFE表现更好。
4. 改变DCT划分: 全帧DCT在所有模型中都显著提高了率-准确性性能。
5. 泛化能力: CV-Cast在不同模型之间具有良好的泛化能力。
6. 视觉比较: CV-Cast产生的图像失真比基线LCT更平滑,且在低信噪比下仍保持较高的准确性。
7. 5G信道模型仿真: CV-Cast在5G信道模型下表现出高信道噪声鲁棒性。
8. 与JPEG和LIC-TCM比较: CV-Cast在低信噪比下比JPEG和LIC-TCM更鲁棒,且计算复杂度低得多。
9. 计算复杂度: CV-Cast的计算复杂度比LIC-TCM低几个数量级。
总体结论:
CV-Cast作为一种优化计算机视觉任务准确性的LCT方案,通过最小化NN损失的增加来优化基线LCT方案。与基线LCT相比,CV-Cast在保持相同准确性的同时,可以显著减少传输符号的数量。在5G信道模型下,CV-Cast即使在JPEG比特流被破坏的信道噪声水平下也能实现实用性能。此外,CV-Cast在高噪声水平下仍显示出较高的鲁棒性,并且计算复杂度远低于LIC-TCM。CV-Cast的提出为边缘计算和远程推理卸载提供了新的视角,特别是在信道质量快速变化的应用场景中。