当前位置：首页 > article >正文

jpeg文件学习

article 2025/3/3 18:31:10

相关最全的一篇文章链接：https://www.cnblogs.com/wtysos11/p/14089482.html

YUV基础知识

Y表示亮度分量：如果只显示Y的话，图像看起来会是一张黑白照。
U（Cb）表示色度分量：是照片蓝色部分去掉亮度（Y）。
V（Cr）表示色度分量：是照片红色部分去掉亮度（Y）。

YUV Formats分成两个格式：

紧缩格式（打包格式）（packed formats）：将Y、U、V值储存成Macro Pixels阵列，和RGB的存放方式类似。
平面格式（planar formats）：将Y、U、V的三个分量分别存放在不同的矩阵中。

YUV422平面：

在这里插入图片描述

YUV420平面格式：

在这里插入图片描述

YUV420内存布局：

在这里插入图片描述

转到YCbCr色彩空间后，就可以将 Cb（U) 和 Cr(V) 这两个通道进行降采样，这里一般是将 22 个像素变为 11 个像素，虽然分辨率下降到了四分之一，但对于人眼来说差别是不大的。

YUV422sp（Semi-Planar Semi）半平面模式：

在这里插入图片描述

RGB24一帧的大小size＝width×heigth×3 B，RGB32的size＝width×heigth×4，YUV标准格式4：2：0 的数据量是 size＝width×heigth×1.5 B

平面格式与交错格式内存存储：

在这里插入图片描述

YUV与RGB变换

在这里插入图片描述

YUV编码例子

https://zhuanlan.zhihu.com/p/106355033

Level Offset 零电平偏置下移

该步骤的作用是，图像内容平均亮度较高，将0电平移到中间，平均亮度降低，便于DCT变换量化后直流的系数大大降低，也就降低了数据量。

将灰度级 $2^n$ 的像素值，全部减去 $2^{n-1}$ ，数据形式由无符号数变为有符号数(补码)，单极性数据变为双极性数据。

Z形编码

在这里插入图片描述

DCT变换

将图像分为8×8的像块；对于宽（高）不是8的整数倍的图像，使用图像边缘像素填充，以不改变频谱分布。然后对每一个子块进行DCT（Discrete Cosine Transform，离散余弦变换）

在这里插入图片描述
其中，C是8x8的DCT变换二维核矩阵，F ( u , v ) 是原始的数据。由于DCT变换是一个正交变换，故 $C^T = C^{-1}$

变换核矩阵如下所示：

在这里插入图片描述

量化

JPEG系统分别规定了亮度分量和色度分量的量化表，色度分量相应的量化步长比亮度分量大。

对亮度和色度分量的DCT系数进行量化，使用如下量化表，该量化表是从广泛的实验中得出的。当然，也可以自定义量化表。

//标准亮度分量量化表
static const unsigned int std_luminance_quant_tbl[DCTSIZE2] = {
    16,  11,  10,  16,  24,  40,  51,  61,
    12,  12,  14,  19,  26,  58,  60,  55,
    14,  13,  16,  24,  40,  57,  69,  56,
    14,  17,  22,  29,  51,  87,  80,  62,
    18,  22,  37,  56,  68, 109, 103,  77,
    24,  35,  55,  64,  81, 104, 113,  92,
    49,  64,  78,  87, 103, 121, 120, 101,
    72,  92,  95,  98, 112, 100, 103,  99
};

//标准色度分量量化表
static const unsigned int std_chrominance_quant_tbl[DCTSIZE2] = {
    17,  18,  24,  47,  99,  99,  99,  99,
    18,  21,  26,  66,  99,  99,  99,  99,
    24,  26,  56,  99,  99,  99,  99,  99,
    47,  66,  99,  99,  99,  99,  99,  99,
    99,  99,  99,  99,  99,  99,  99,  99,
    99,  99,  99,  99,  99,  99,  99,  99,
    99,  99,  99,  99,  99,  99,  99,  99,
    99,  99,  99,  99,  99,  99,  99,  99
};

对DCT变换进行量化后，得到的量化结果，会出现大量的0，使用Z形扫描，可以将大量的0连到一起，减小编码后的大小。越偏离左上方，表示频率越高，通过量化，将图像的高频信息干掉了。

编码

直流编码：DPCM + VLC 可变长熵编码（采用Huffman）

8×8图像块经过DCT变换之后得到的DC直流系数有两个特点：

系数的数值比较大
相邻8×8图像块的DC系数值变化不大，冗余

根据这个特点，JPEG算法使用了差分脉冲调制编码(DPCM)技术，对相邻图像块之间量化DC系数的差值DIFF进行编码：

在这里插入图片描述

对DPCM后算出的DIFF差值使用Huffman编码。所以，DC系数会产生一张长度为16的Huffman码表。

在这里插入图片描述

交流：ZigZag Scan + Run Length Encoding+VLC

对于量化后的数据，我们将其分为两路进行处理。一路是AC通路，一路是DC通路。

ZigZag Scan+RLE是用于AC通路的，这是因为AC分量出现较多的0。JPEG采用对0系数的游程长度编码。而对非0值，则要保存所需数和实际值。
在编码之前，需要把二维的变换系数矩阵转换为一维序列，由于量化之后右下角高频系数大部分为零，采用ZigZag Scan读取可以制造较长的零游程，提高编码效率。在扫描中，如果后续的系数全部为零，则用“EOB”表示块结束。

在这里插入图片描述

RLE编码的过程：

例：例如，现有一个字符串，如下所示：
57,45,0,0,0,0,23,0,-30,-8,0,0,1,000…
经过RLE之后，将呈现出以下的形式：
(0,57) ; (0,45) ; (4,23) ; (1,-30) ; (0,-8) ; (2,1) ; (0,0)
注意，如果AC系数之间连续0的个数超过16，则用一个扩展字节(15,0)来表示16连续的0。