语义通信论文略读(十二)图像知识库+styleGAN
Multi-Modal Knowledge Graph Enhanced StyleGAN-Based Cognitive Semantic Communications for Image Transmissions
基于多模态知识图谱增强的StyleGAN认知语义通信在图像传输中的应用
· 作者: Wei Wu, Hangtao Mao, Fuhui Zhou, Tianle Yao, Han Hu, Baoyun Wang, Qihui Wu
· 所属机构: 南京邮电大学,南京航空航天大学,中国,浙江实验室,中国
· 关键词: 认知语义通信,图像语义通信,多模态知识图谱,生成对抗网络,深度学习
· 时间:2024 年 6 月 9 日
· 期刊: 2024 IEEE 通信国际会议研讨会 (ICC Workshops)
研究背景:
1. 语义通信的提出: Weaver和Shannon首次提出语义通信的概念,旨在突破香农极限,传递意图含义。
2. 深度学习技术的发展: 深度学习技术的进步推动了语义通信在文本、图像和语音等领域的研究。
3. 认知语义通信框架: Zhou和Li提出了利用知识图谱的认知语义通信框架(知识库),但仅适用于文本传输。
4. 图像语义通信的需求: 为了将认知语义通信扩展到图像传输,建立图像数据的知识库,需要考虑图像恢复任务的高效和可解释的语义表示方法。
研究方法:
1. 多模态知识图谱(MMKG)增强的StyleGAN基础认知语义通信: 提出一种新颖的MMKG增强StyleGAN基础认知语义通信方法,用于图像传输。
2. 语义编码: 设计了基于MMKG的语义编码方法,通过将语义表示为知识图谱中的实体节点,实现高效压缩。
3. 语义融合算法: 设计了基于MMKG的语义融合算法,实现基于MMKG提供的额外语义的可控语义恢复。
4. 图像重建: 使用StyleGAN 2作为图像生成器,通过语义融合算法结合额外的视觉模态信息,实现接收端的语义级图像重建。
实验设计:
1. 数据集和模拟设置: 使用CelebAMask-HQ数据集进行语义分割模型和图像重建模型的训练,采用公开的多模态知识图谱Richpedia作为语义知识库。
2. 性能比较: 与JPEG和Webp等传统图像压缩方法进行比较,通过KID、FID和LPIPS等感知性能指标评估图像重建性能。
结果分析:
1. 图像恢复性能: 提出的方法在不同比特率下的KID值普遍小于0.05,与JPEG和Webp相比,性能提升最大可达77.7%和35.89%。
2. 语义分割性能: 在低比特率条件下,提出的方法具有明显优势,mIoU值高于传统方法,表明提出的语义通信框架在低比特率条件下优先传输语义信息。
3. 视觉结果比较: 在最低比特率条件下,提出的方法即使在比特率远低于基线的情况下也能实现良好的恢复性能,而JPEG和WebP则出现模糊和失真。
4. 多模态知识图谱的贡献: 多模态知识图谱提供的额外语义信息在图像重建中起到了显著作用,特别是在低比特率条件下。
总体结论:
1. 方法有效性: 提出的方法在低比特率下实现了更高的语义重建能力,优于传统通信系统。
2. 多模态知识图谱的作用: 多模态知识图谱在图像重建中提供了重要的额外语义信息,显著提高了图像重建的性能。
3. 未来工作: 未来的工作将探索如何进一步提高图像传输的语义通信性能,并扩展到其他类型的媒体传输。