当前位置：首页 > article >正文

多媒体技术学习笔记

article 2025/4/2 11:20:38

【考试题型】

选择题20个，共20分
填空题10个，共10分
分析题8道，共70分

【知识复习】

第一章多媒体技术概述

多媒体的基本概念

媒体（media，medium）：承载信息之载体。
ITU-T（原CCITT）对媒体的分类：感觉、表示、显示、存储、传输。
感觉媒体：用户接触信息的感觉形式（视觉、听觉、触觉等）。
表示媒体：信息的表示形式（文字、图像、声音、视频、动画等）。
显示媒体：表现和获取信息的物理设备（显示器、打印机、键盘等）。
存储媒体：存储数据的物理设备（磁带、磁盘、光盘等）。
传输媒体：传输数据的物理设备（光缆、电缆、电磁波、交换设备等）。

多媒体是融合两种或者两种以上媒体的一种人机交互式信息交流和传播媒体，使用的媒体包括文字、图形、图像、声音、动画和视频等。

多媒体的三个特性

- 媒体多样性
- 人机交互性
- 系统集成性

多媒体的种类和特点

视觉类媒体（70%～80%）：文本、图像、图形、视频、动画
听觉类媒体（10%）：波形声音、语音、音乐
触觉、嗅觉和味觉类媒体（10%）

多媒体技术的研究领域

数字多媒体表示与操作
数字多媒体压缩
数字多媒体存储与管理
数字多媒体传输

第二章数字音频处理技术

音频处理技术概述

种类繁多，有共性有特性
记录声音：留声机➡️磁性录音➡️数字音频

声音的基本特性

声音是通过空气传播的一种连续的波，叫声波
音频信号是时间依赖的连续载体
模拟人耳的两个通道
语音处理包含情感和意向，涉及语言学、社会学和声学
声音的产生
- 我们把正在发出声音的振动物体通常称为声源
- 物体振动或气流扰动而引起周围的空气或其他弹性介质发生波动的现象称为声波
- 声波所涉及的空间范围称为声场
声音产生的三个条件
- 存在声源并振动
- 传播介质
- 听觉感受
声音的频率

声音的带宽
- 对声音信号的分析表明，声音信号由许多频率不同的信号组成，这类信号称为复合信号，而单一频率的信号称为分量信号。
- 带宽是声音信号的一个重要参数，它用来描述组成复合信号的频率范围。如高保真音信号（high-fidelity audio）的频率范围为10Hz～2000Hz，它的带宽约为29kHz（20000-10）。
声音的响度
- 声音的响度就是声音的强弱。
- 听阈：当声音弱到人的耳朵刚刚可以听见时，我们称此时的声音强度为“听阈”。
- 痛阈：声音强到使人耳感到疼痛时，这个阈值称为“痛阈”。
- 注意：听阈和痛阈都是和频率相关的。

音频的数字化

模拟磁性录音技术
- 话筒把声音在介质中的机械振动转换为电信号，以模拟电压的幅度来表示声音强弱。
- 直接记录音频信号的波形，重放时用唱针扫描槽纹或者用放音磁头来拾取信号。
- 受电磁性能的影响较大，磁带的频率特性微小的变化都会对音质产生影响。
- 目前模拟录音的动态范围可达80dB。
音频信号是模拟信号
- 话音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。在时间上“连续”是指在一个指定的时间范围里时间信号的幅值有无穷多个，在幅度上“连续”是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。
数字音频
- 通过模数转换器（A/D Converter）将声波波形转换成一连串的二进制数据来再现原始声音。
- 以每秒上万次的速率对声波进行采样，每一次采样都记录下原始模拟声波在某一时刻的状态，称之为样本。
- 以每个样本分配一定的存储位（bit）来表达声波的振幅状态，称之为样本精度/采样精度。
音频的数字化
- 将模拟音频转化为数字音频
  - 采样：每隔一段时间就记录一次声音信号的幅度。
  - 量化：把采样得到的声音信号幅度转换为数字值。
  - 时间上的离散叫采样，幅度上的离散叫量化。
- 采样频率
  - 定义：将模拟音频数字化时，每秒钟所抽取声波幅度样本的次数，采样频率的计算单位是kHz（千赫兹）。
  - 一般来讲，采样频率越高声音失真越小，但用于存储音频的数据量也越大。
- 奈奎斯特采样定律

- 样本精度
  - 模拟音频中，声音的幅度通常用电压表示；而在数字音频中，电压通常用数字表示。例如，0.5V电压用数字20表示，2V电压用数字80表示。
  - 电压是连续变量，即使在某电平范围内，仍然有无穷多个，比如1.2V、1.21V、1.215V
  - 用数字表示音频幅度时，只能把无穷多个电压幅度用有限个数字表示，即把某一个幅度范围内的电压用一个数字表示，这个过程称作量化。
  - 样本精度是每个采样点能够表示的数据范围，常用的有8位、12位和16位。例如8位量化级表示每个采样点可以表示256个（0～255）不同量化值。
  - 量化的过程是，先讲整个幅度划分成为有限个小幅度（量化阶距），把落入某个阶距的样值归为一类，并赋予相同的量化值。
- 单声道和双声道
  - 记录声音，如果每次生成一个声波数据，称为单声道。
  - 每次生成两个声波数据，称为双声道或立体声，立体声更能反应人的听觉感受。
- 数字音频文件大小的计算
  - 数据量Byte = 采样频率Hz ×（采样位数/8）× 声道数 × 时间s

声卡的功能：
- 音频录放、编辑，音乐合成，文语转换，CD-ROM接口，MIDI接口，游戏接口

常见的音频文件

常见的声音文件：
- WAV文件
  - 波形文件/波形音频，是多媒体计算机获得声音最直接、最简便的方式。声卡以一定采样频率和样本精度对输入声音进行数字化，将其从模拟声音信号转换为数字信号（模/数转换），然后以适当的格式存在硬盘上。
  - WAV是Windows所使用的标准数字音频文件。存储压缩后波形数据用MP3。
  - WAV的主要缺点是产生的文件太大，不适合长时间记录。
- MIDI文件（Musical Instrument Digital Interface）
  - 存储的不是声音信号，而是各种乐器的发音指令，播放时系统根据这些命令合成乐曲
  - MIDI文件的优点是非常小，可以满足长时间音乐的需要。
  - 用于控制音乐合成器，合成细节由合成器决定。

- CD音频
  - CD音频也是一种数字化声音，以16位量化级、44.1kHz采样频率的立体声存储，可以完全重现原始声音，每片CD唱片能记录约74分钟这种质量的音乐节目。
  - CD-ROM驱动器可以读取CD-ROM盘的信息，还能播放数字CD唱盘（CD-DA）。
声音文件的播放和录制
- 播放：操作系统自带的媒体播放器，著名的音乐播放软件，声卡或主机驱动中自带
- 录制：操作系统自带的录音机，声卡自带的应用程序，用于电脑音乐处理的通用软件

电脑音乐

不同媒体形式的转换

自动语音识别系统（语音到文字）
文本-语音转换（TTS，如金山词霸，有声电子读物，盲人阅读，电话银行）
声音记录到条码
声音和图像之间的同步
与讲稿画面同步的音乐文件
word、excel中嵌入声音数据
用声音操作设备（siri）

数字音频设备

模拟音频处理设备

数字音频处理设备可以分为两类：
- 专用数字音频设备
- 非专为处理音频而设计的多媒体计算机
数字音频设备：
- 数字调音台
- 数字录音机
- 数字音频工作站
关键的硬件技术内核包括：
- 模数转换器（ADC）
- 数模转换器（DAC）
- 数字信号处理器（DSP）

数字音频编辑软件

几个关键的概念：
- 声道：声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。
- 音轨：每条音轨分别定义了该条音轨的属性，如音色、音色库、通道数、输入输出端口
- 时序：时间的顺序，是编辑处理视频、音频、动画等媒体的一个共同概念和基本思想。

第三章数字图像处理技术

人的视觉系统和视觉常识

视觉的常识
- 颜色是视觉系统对可见光的感知结果；
- 可见光波长在380nm~780nm之间；
- 我们看到的大多数光不是一种波长的光，而是由许多不同波长的光组成的。
- 可见光的度量参数：波长和强度、光谱的功率分布(spectral power distribution, SPD)

什么是数字图像？

图像：物体在平面坐标上的直观再现，是其所表示物体的信息的直接描述和概况表示。
数字图像：像素组成的二维或三位排列，可以用矩阵表示。
图像可以用一个二元函数来表示f(x,y)
- x, y分别表示横坐标和纵坐标，函数f的值表示亮度（intensity）或灰度值（gray level）
- 数字图像：当x，y和函数f的值都是有限、离散的。
数字图像由若干元素组成，每个元素包括位置和亮度信息。这些像素被称为picture elements, image elements和pixels（像素）。
- 对于单色（灰度）图像而言，每个像素的亮度用一个数值来表示，通常数值范围在0到255之间，0表示黑、255表示白，其它值表示处于黑白之间的灰度。
- 彩色图像可以用红、绿、蓝三元组的二维矩阵来表示。通常三元组的每个数值也是在0到255之间，0表示相应的基色在该像素中没有，而255则代表相应的基色在该像素中取得最大值。
数字图像的类型
- 二值图像：灰度值只有0和1两个的图像。0代表黑色，1代表白色。
- 灰度图像：一般指具有256级灰度值的图像。数据类型一般为8位无符号整数。0代表黑色，255代表白色。其它表示从黑到白的过渡色。
- 索引图像：包括存放图像数据的二维矩阵，还包括一个颜色索引矩阵（MAP）。两个矩阵建立映射关系。
- RGB彩色图像：称为真彩色图像。由R、G、B来表示每个像素的颜色。颜色值直接存放在矩阵中，无需索引。即M×N×3。
数字图像处理的目的
- 人类理解和分析
- 机器识别

颜色模型

各种颜色模型
- RGB相加颜色模型
  - 红色+绿色+蓝色（类似于光的叠加，所有叠一起是白色）
- CMY相减颜色模型
  - 青色+品红+黄色（类似于墨水叠加，所有叠一起是黑色）
- HSL颜色模型
  - 色调（hue）、饱和度（saturation）、亮度（luminance）
- YUV颜色模型
  - Y表示亮度，UV用来表示色差，UV是构成彩色的两个分量（U色度，V浓度）
颜色空间变换
- 从RGB到CMY
  - C = 255 - R
  - M = 255 - G
  - Y = 255 - B
- 从RGB到HSL

- 从RGB到YUV

真色彩&伪色彩
- 真色彩：组成一幅彩色图像的每个像素值中，有R、G、B三个基色分量，每个基色分量直接决定显示设备的基色强度，这样产生的彩色称为真彩色。
- 伪彩色：每个像素的颜色不是由每个基色分量的数值直接决定，而是把像素值当成彩色查找表（color look-up table，CLUT）的表项入口地址，去查找一个显示图像时使用的R、G、B强度值。
关于彩色习惯说法
- 8位色可显示2^8=256种颜色，称之为伪彩色。
- 16位色可显示2^{16}=65536种颜色，称之为增强色。
- 24位色可显示2^{24}=16800000种颜色，称之为真彩色。
矢量图&位图
- 矢量图（vector-based image）是用一系列计算机指令来描述和记录一幅图，这幅图可分解为一系列子图如点、线、面等。
  - 不受分辨率的影响。可以任意放大或缩小图形而不会影响出图的清晰度，可以按最高分辨率显示到输出设备上。难以表现色彩层次丰富的逼真图像效果。
- 位图（bit-mapped image）是用像素点来描述或映射的图，也即位映射图。位图在内存中也就是一组计算机内存地址位（bit）组成，这些位定义图像中每个像素点的颜色和亮度。
  - 缩放和旋转容易失真，同时文件容量较大。但只要有足够多的不同色彩的像素，就可以制作出色彩丰富的图像，逼真地表现自然界的景象。
图像&图形
- 图形：用计算机绘制的画面，包括直线、曲线，圆/圆弧，方框等成分。图形一般按各个成分的参数形式存储，可以对各个成分进行移动、缩放、旋转和扭曲等变换，可以在绘图仪上将各个成分输出。
- 图像：由输入设备捕捉的实际场景或以数字化形式存储的任意画面。图像可以用位图或矢量图形式存储。
最普及的图像文件格式BMP
- 位图文件（Bitmap-File）格式是Windows采用的图像文件存储格式，在Windows环境下运行的所有图像处理软件都支持这种格式。
- 位图文件的特点是包含的图像信息较丰富，几乎不进行压缩，但因此导致了它与生俱来的缺点——占用磁盘空间过大。所以，BMP在单机上比较流行。现在BMP（Windows位图）图像主要被用在PC机运行Window时的墙纸。
和扫描仪一起出现的TIFF
- TIFF文件（Tag Image File Format）是由Aldus和Microsoft公司为扫描仪和桌上出版系统研制开发的一种较为通用的图像文件格式，在苹果公司的Mac计算机中广泛应用。
- 灵活易变，定义了四类不同的格式：
  - TIFF-B适用于二值图像；
  - TIFF-G适用于黑白灰度图像；
  - TIFF-P适用于带调色板的彩色图像；
  - TIFF-R适用于RGB真彩图像。
网络流行的格式之一GIF
- GIF（Graphics Interchange Format）是CompuServe公司在1987年开发图像文件格式。GIF文件的数据是经过压缩的，它采用了可变长度等压缩算法。
- GIF文件的图像深度从1bit到8bit，也即GIF最多支持256种色彩的图像。GIF格式的另一个特点是其在一个GIF文件中可以存多幅彩色图像，如果把存于一个文件中的多幅图像数据逐幅读出并显示到屏幕上，就可构成一种最简单的动画。
网络流行的格式之二JPEG
- JPEG文件（Joint Photographic Experts Group）是由CCITT（国际电报电话咨询委员会）和ISO（国际标准化组织）联合组成的一个图像专家组。该专家组制定的第一个压缩静态数字图像的国际标准，其标准名称为“连续色调静态图像的数字压缩和编码（Digital Compression and Coding of Continuous-tone Still Image）”，简称为JPEG算法。采用JPEG压缩编码算法压缩的图像，其压缩比为5:1至50:1，甚至更高。
网络流行的格式之三PNG
- PNG是可携式网络图像Portable Network Graphics这三个单词第一个字母的缩写。PNG文件格式是一种新兴的网络图像格式，结合了GIF和JPEG格式的一些优点，允许连续读出和写入图像数据并使用无损压缩。

图像数字化

简单的图像成像模型
- f(x, y) 由两个元素决定：光源强度、反射率
实际中采样方式由传感器决定：
- 采样是通过机械增量的数量来完成的
- 带上的传感器数量决定了一个图像方向上的采样限制
- 阵列中的传感器数量决定了两个图像方向上的采样限制
为了创建数字图像，需要将连续的传感数据转化为数字形式，包括：
- 采样（Sampling）：digitizing the coordinate values
- 量化（Quantization）：digitizing the amplitude values
数字图像质量很大程度上由M, N, L决定（M和N是采样数量，L是灰度）
- 图像内容也会影响M, N, L参数的选择
大小计算
- M×N是空间分辨率，L是灰度分辨率

Isopreference曲线往往随着图像细节增加而变得更垂直
数字图像的放大与缩小
- 图像放大需要两步：1️⃣创建新的像素位置；2️⃣灰度分配
- 图像缩小同上

像素空间关系

像素间联系
- 像素p的邻域
  - 4近邻（4-neighbors）：N_4(p)（上下左右）
  - 对角近邻（D-neighbors）：N_D(p)（左上、左下、右上、右下）
  - 8近邻（8-neighbors）：N_8(p)（周围一圈，N_8(p)=N_4(p)+N_D(p)）
- 连通性（connectivity）是描述区域（region）和边界（boundary）的基本概念）
  - 两个像素具有连通性的两个必要条件：
    - 两个像素是否相邻
    - 它们的灰度级是否满足相似性准则
  - 4连通（4-adjacency）：像素值在同一集合，在4邻域里
  - 8连通（8-adjacency）：像素值在同一集合，在8邻域里
  - m连通（m-adjacency，混合连通）:像素值在同一集合，在4邻域里；或者在对角邻域里，且对角和4邻域没有像素属于同一集合。
- 通路（path）

- 距离度量

- 欧式距离（Euclidean distance）
  - D_e(p,q)=[(x-s)^2+(y-t)^2]^{\frac{1}{2}})
- D_4距离（或city-block距离）
  - D_4(p,q)=|x-s|+|y-t|
- D_8距离（或chessboard距离）
  - D_8(p,q)=max(|x-s|,|y-t|)

几何失真校正
- 在许多实际的图像采集过程中，图像中像素之间的空间关系会发生变化，这是可以说图像产生了几何失真或几何畸变。
  - 原始场景中各部分之间的空间关系与图像中各对应像素间的空间关系不一致
- 图像的几何失真校正主要包括两个步骤：
  - 空间变换：对图像平面上的像素进行重新排列以恢复原空间关系

- - 灰度插值：对空间变换后的像素赋予相应的灰度值以恢复原位置的灰度值

图像输入输出设备

图像输入设备
- 数字化器是将模拟图像转换成数字图像的数字化输入装置
- 常用的数字化器：数码电视摄像机、数码相机、扫描仪等

图像输出设备
- 数字图像的显示是图像数字化的逆过程（D/A）
  - 在多媒体技术中，显示器和其他图像输出设备（如打印机、胶片记录仪、静电绘图仪等）都可以看成为输出显示媒体。
  - 显示器是典型的暂时显示设备，而打印机等是永久显示设备。
- 显示分辨率是指显示屏上能够显示出的像素数目。屏幕能够显示的像素越多，说明显示设备的分辨率越高，显示的图像质量也就越高。
- 图像分辨率是指组成一幅图像的像素密度的度量方法。对同样大小的一幅图，如果组成该图的图像像素数目越多，则说明图像的分辨率越高，看起来就越逼真。相反，图像显得越粗糙。单位：每英寸多少点（dots per inch，DIP）表示，如用300DIP扫描8''×10''就是2400×3000个像素的图像。
- 显示分辨率 & 图像分辨率
  - 图像分辨率是确定组成一幅图像的像素数目，而显示分辨率是确定显示图像的区域大小。（可能会出现宽高比不一致现象）
  - 电脑显示器参数：分辨率、刷新率、带宽（带宽=最大分辨率×最大分辨率下的刷新率×1.3或1.5）
  - 像素深度（图像深度）

- - 打印机的两个重要参数：分辨率、打印速度。

第四章数字视频处理技术

动画与视频基础

动画的原理：视觉暂留
视频是时间上连续的一系列图像的集合。
- 动画或视频信息是连续渐变的静态图像或图形序列，沿时间轴顺次更换显示，从而构成运动视觉的媒体。当序列中每帧图像是由人工或计算机产生的图像时，我们常称为动画；当序列中每帧图像是通过实时摄取自然景象或活动对象时，我们常称为影像视频，或简称为视频。
视频
- 常见视频文件格式
  - AVI文件、QuickTime文件、MPEG文件、RealVideo文件（低速率广域网实时传输）
- 常见的视频编辑软件
  - Premiere、Media Studio Pro、Ulead Video Studio、Vegas
  - 内容：格式转换、针对每一帧图像的编辑、删除部分帧图像、将几段视频连接在一起、将一段视频分割为几段、添加艺术化字幕
- 视频的分辨率
  - 视频是由连续快速出现的静止图像组成。在计算机领域，经常使用图像像素的多少来表示视频的分辨率，即水平像素数×垂直像素数。
  - VGA：640×480； SVGA：800×600
- 视频的清晰度
  - 线（电视行、TVLine）：电视的画面清晰度是以水平清晰度为单位。水平线数越多扫描线数越多，画面就越清楚。
  - 美国NTSC要求525条扫描线，30帧；欧洲PAL625条扫描线25帧。
动画
- 常见动画文件格式
  - GIF文件、Flic文件（无损数据压缩）、FLASH文件

电影与电视

电影
- 原理：视觉暂留
电视
- 工作原理
  - 发送端：摄像机（摄像管）把景物转变成电信号（光-电转换）
  - 接收段：由显示设备（显像管）重现原景物（电-光转换）

- 先有场后有帧
- 电视扫描术语

- 电视扫描格式：D1（480i）、D2（480P）、D3（1080i）、D4（720P）、D5（1080P）
- 电视制式

- - PAL制式
    - 625行/帧，25帧/秒，每场中25行为场回归，575行是有效行
    - 宽高比4:3，颜色模型：YUV
    - 隔行扫描，2场/帧，312.5行/帧。
      - 奇数和偶数场交错组成一个电视帧
  - NTSC制式
    - 525行/帧，30帧/秒，每场保留20扫描线作为控制信息
    - 宽高比4:3，颜色模型：YIQ
    - 隔行扫描，一帧分为2场，262.5线/场
- 彩色全电视信号
  - 在黑白电视基础上同时传送亮度信号和2个色差信号
  - NTSC（美加日韩等）、PAL（德英中朝等）、SECAM（法苏欧）
  - U和V（用副载波w_{sc}）经平衡正交调制，加到亮度Y上，形成彩色全电视信号（或称符合电视信号）。
    - 对于NTSC，Cvbs=Y+Usin(w_{sc}t)+Vcos(w_{sc}t)，色调失真
    - 对于PAL，Ch=Usin(w_{sc})+S(t)Vcos(W_{sc}t)
      - S(t)称为PAL开关函数，它是双极性矩形脉冲，其重读周期为行周期的两倍，幅度为+1和-1。
  - 视频信号类型包括：
    - 复合电视信号（CVBS）：亮度信号和色度信号采用频谱间置方法复合在一起。这种方法易导致亮色串绕、清晰度降低等问题。
    - 分离电视信号（S-Video）：亮度和色度分离的一种电视信号。色度信号仍须解调。
    - 分量电视信号（Component Video Signal）：每个基色分量作为独立的视频信号。

电视图像的数字化

电视信号数字化常用的方法：
- 分量电视信号的数字化：先从复合彩色电视图像中分离出彩色分量，然后数字化。

- 复合电视信号的数字化：对色度信号和亮度信号共频所形成的复合电视信号直接进行数字化。

- CCIR 601标准 ➡️ ITU- R BT.601标准
为了保证信号的同步，采样频率必须是电视信号行频的倍数。CCIR为NTSC、PAL和SECAM制式制定的共同的电视图像采样标准：
- fs = 13.5 MHz
  - 这个采样频率正好是PAL、SECAM制行频的864倍，NTSC制行频的858倍，可以保证采样时采样时钟与行同步信号同步
  - 对于4:2:2的采样格式，亮度信号用fs频率采样，两个色差信号分别用fs/2=6.75MHz的频率采样。
    - 采样格式（亮度Y：红色差：蓝色差）包括：
      - 4:4:4，4:2:2，4:1:1，4:2:0
      - 1个像素用到4个像素
数字视频文件格式
- 本地影像视频、网络流媒体影像视频
- MPEG、MOV、ASF、WMV、RM、RMVB
- 本地影响视频格式
  - AVI（Audio Video Interleaved），音频视频交错格式
    - 图像质量好，可跨平台；但体积庞大，压缩标准不统一
  - DV-AVI格式，家用数字视频格式
  - MPEG格式（Moving Picture Expert Group），运动图像专家组格式
  - DivX格式，由MPEG-4衍生出来，也即DVDrip
  - MOV格式，可跨平台，具有较高压缩比率和较完美的视频清晰度
- 网络影像视频
  - ASF格式（Advanced Streaming Format）
  - WMV格式（Windows Media Video）
  - RM格式（Real Media）
  - RMVB格式

数字视频的获取

获取主要途径：
- 从现成的数字视频库中截取
- 利用计算机软件制作视频
- 用数字摄像机直接摄录
- 视频数字化：电视机、激光视盘、摄像机等都可提供丰富多彩的模拟视频信号，通过视频采集设备获取数字视频
摄像机
- 工作原理：光学图像信号转变为电信号
- 收集反射光，使之聚焦在摄像器件的受光面上，再通过摄像器件把光能转变为电能（在管外偏转线圈驱动下，电子束逐点逐行扫描靶面，把扫描路径上各像素的电位信号按序输出），即得到了视频信号。
- 组成部分：镜头系统、主机、寻像器和附件
- 分类：广播级、业务级、家用级
数码摄像机（DV）
- 最大的特征：磁带上记录的信号为数码信号，而非模拟信号。
- 特点：图像质量佳、记录密度高、可靠性高、低成本、完美的音质
- DVD数码摄像机用DVD刻录盘，简便易用，可以随机回放，也不用另外制作光盘
录像机（磁带录像机）
- 原理：利用磁记录原理把视频信号及其伴音信号记录在磁带上
- 分类：广播级、专业用、家用
视频采集卡
- 作用：模拟摄像机、录像机、LD视盘机、电视机输出的模拟视频信号输入电脑，并转换成电脑可辨别的数据，存储在电脑中，成为可编辑处理的视频数据文件。
- 采集和压缩同步进行

数字视频的编辑技术

视频编辑基本概念
- 视频编辑：传统意义上简单的画面拼接；影视特效制作。
- 两种形式：线性编辑、非线性编辑
- 镜头、镜头组接、蒙太奇、转场过渡
- 核心概念：项目、素材、时间线、轨道、渲染、字幕、特效、滤镜

视频显示设备

阴极射线管CRT
背投影技术（观众和投影机位于投影屏的两边，看透射出来的光）
等离子体显示（Plasma Display）
液晶显示（Liquid Crystal Display）
发光二极管（LED，Light Emitting Diode）：耗电少、寿命长、成本低、亮度高、故障少、视角大、距离远、规格品种多
三种手机彩屏
- STN（Super Twisted Nematic）：超扭曲向列型液晶显示屏幕
- TFT（Thin Film Transistor）：薄膜场效应晶体管
- OLED（Organic Light Emitting Display）：有机发光显示器
视网膜成像显示（Retina Imaging Display）
- 原理：视觉暂留，激光按顺序水平垂直循环扫描，撞击视网膜
微型投影（OmniTouch）

第五章多媒体压缩技术

编码和压缩的基本概念

编码就是对应。
- 对数字信息的编码表现为从一个比特流转换为另一个比特流。
- 不同用途：压缩、加密、提高传输过程的抗干扰能力、作为唯一的标识等
- 多媒体数据的编码：首先需要媒体信息、在最大程度上压缩比特流、适合于在网络上传输
压缩
- 两种表现形式
  - 在等同的空间中容纳更多的信息
  - 在等同的时间内表现更多的信息
- 比特流的压缩
  - 用相同长度的比特流表示更多的信息
  - 用尽量短的比特流表达尽量多的信息
- 压缩的目的
  - 相同的代价处理更多的信息
  - 处理等量信息的代价减小
  - 提高媒体信息处理的效率
  - 提高媒体信息处理的能力
- 压缩 = 模型 + 编码
  - 数字压缩技术建立在数字编码基础之上

数据压缩的重要性

多媒体数据压缩的重要性
- 多媒体信息的数据海量性，与当前硬件技术所能提供的计算机存储资源和网络带宽之间有很大差距
- 目前，数字化的媒体信息数据以压缩形式存储和传输仍是唯一选择
- 节约存储空间，提高传输效率，使实时处理播放成为可能
多媒体数据压缩的可能性
- 图像数据表示中存在着大量的冗余（redundancy）
- 图像数据压缩技术就是利用图像数据的冗余性来减少图像数据量
- 空域冗余：图像在空间上存在很大相关性
- 时域冗余：视频图像在时间上存在很大相关性
- 视觉冗余（感知冗余）：人眼感受不到图像中的一些复杂细节信息，丢弃这些信息不会影响视觉感受

数据压缩方法分类

质量有无损失
- 有损失编码（有不同但不会让人产生误解）
- 无损失编码（重构后的数据与原来数据完全相同）

【补充】

脉冲编码调制（PCM）：编码和解码分别位于起点和终点，分别是A/D和D/A转换器

作用域
- 空间方法、变换方法、混合方法
是否自适应
- 自适应性编码、非自适应性编码

数据压缩基础

（1）统计编码

数据压缩的理论基础是信息论。
信息量和信息熵

- 信息是用不确定性的度量定义的
  - I(x_j)=-log_aP(x_j), \space \space \space j=1,2,...,n
    - P(x_j)是信源X发出xj的先验概率
    - I(x_j)是xj发生后的自信息量，含义是信源X发出xj这个消息后，接收端收到信息量的度量。

- 熵的大小与信源的概率分布有着密切联系
- 等概率事件的熵最大。等概率分布时，熵具有极大值log_2n，n为信源中事件个数。

a. Huffman编码

最佳编码定理
- 在变字长码中，对于出现概率的消息符号编以短字长的码，对于出现概率小的消息符号编以长字长的码。如果码子长度严格按照符号概率的大小的相反顺序排列，则平均码子长度一定小于任何其他符号顺序排列方式得到的码子长度。
具体步骤
- 将信源符号的概率按减小的顺序排队
- 把两个最小概率相加，并继续这一步骤，始终将较高的概率分支放在右边，直至最后变成概率1
- 画出由概率1处到每个信源符号的路径，顺序记下沿路经的0和1，所得就是该符号的霍夫曼码字
- 将每对组合的左边一个指定为0，右边一个指定为1
特点：
- 平均码长\tilde{N}>H(x)（大于熵）
- 平均码长\tilde{N}<3 bits（小于等长码需要的比特数）
- 保证解码的唯一性，短码字不构成长码字的前缀
- 在接收端需保存一个与发送端相同的Huffman码表
局限
- 概率不是2^{-n}形式时，压缩效果不佳

b. 算数编码

基本思想：算数编码不是将单个信源符号映射成一个码字，而是把整个信源表示为实数线上的0到1之间的一个区间，其长度等于该序列的概率，再在该区间内选择一个代表性的小数，转化为二进制作为实际的编码输出。

自适应概率模型：先假设所有信源符号出现的概率相等，然后再根据输入符号自适应地调整概率模型。
特点：
- 用一个实数表示一个消息串
- 将任意一个消息串映射到[0, 1)区间中的一个点
- 当然由于计算机所能表示的实数精度有限，不能实现对无穷消息到一个点的压缩
- 体现了从模糊到精确的表现

c. 游程编码

游程编码和词典编码的核心思想：
- 利用数据的重复结构信息来进行数据压缩
游程编码（Run-Length Encoding）：它通过将信源中相同符号序列转换成一个计数字段再加上一个重复字段标志实现压缩。
- RLE能获得的压缩比有多大，主要取决于图像本身特点
  - 如果相同颜色的图像快越大，图像块数目越少，压缩比越高
  - 通常需要和其他的压缩编码技术联合应用

d. 词典编码

主要利用数据本身包含许多重复代码的特性（文本文件和光栅图像）
第一类词典法编码的思想：
- 企图查找正在压缩的字符序列是否在以前输入的数据中出现过，然后用已经出现过的字符串替代重复的部分，它的输出仅仅是指向早期出现过的字符串的“指针”
第二类词典法编码的思想：
- 企图从正在输入的数据中创建一个“短语词典”，这种短语可以是任意字符的组合。编码数据过程中当遇到已经在词典中出现的“短语”中，编码器就输出这个词典中的短语的“索引号”，而不是短语本身。

L777算法

LZSS算法
- 思想：如果匹配串的长度比指针本身的长度长就输出指针，否则输出真实字符。另外要输出额外的标志位区分是指针还是字符。

（2）预测编码

基本思想：
- 根据某一模型利用以往的样本值对于新的样本值进行预测，然后将样本的实际值与其预测值相减得到一个误差值，对这一误差值进行编码
- 如果模型足够好且样本序列在时（空）间上的相关性较强，误差信号的幅度将远远小于原始信号，因此可使用较少的位数对其量化。
DPCM的基本原理

自适应预测编码
- DPCM系统
- 自适应差分脉冲编码调制（ADPCM）系统：根据图像的局域区域分布特点自动调整，可以改善质量和视觉效果，同时可以进一步压缩数据
帧间预测编码
- 处理对象：序列图像（运动图像）
- 基于预测技术的帧间预测编码方法
  - 条件补充法
  - 运动补偿技术

（3）变换编码

基本思想：
- 首先将空域图像信号映射变换到另一个正交矢量空间（变换域或频域），产生一批变换系数，然后对这些变换系数进行编码处理
正交变换种类
- 傅立叶（Rourier）变换、K-L（Karhunen-Loeve）变换、余弦变换、正弦变换、沃尔什（Walsh）变换、哈尔（Haar）变换等
- 正交变换性质

- 能量守恒

- 二维正交变换

离散余弦变换

（4）JPEG压缩编码

JPEG（Joint Photographic Expert Group)
- 联合图像专家小组，联合国际标准化组织（ISO）和国际电报电话咨询委员会（CCITT）。
目的：给出一个适合连续色调图像的压缩方法，使之满足以下要求：
- 达到或接近当前压缩比和图像保真度的水平，“很好”到“极好”的质量
- 适合任何种类的连续色调的图像，不受长宽比、景物内容、复杂程度、统计特性的限制
- 计算复杂度可控制，可以CPU完成也可以硬件实现
操作方式
- 顺序编码（Sequential）
- 累进编码（Progressive）
- 无失真编码（lossless）
- 分层编码（Hierarchical）
JPEG有损顺序编码算法的主要计算步骤：

JPEG采用8×8大小的子块的二维离散余弦变换（DCT）
- 离散余弦变换（FDCT）

量化
- 对经过FDCT变换后的频率系数进行量化
- 目的：降低非0系数的幅度，增加0值系数的幅度
- 量化是造成图像质量下降的最主要原因
- 使用如图所示的均匀量化器进行量化

- 量化步距按系数所在位置和每种颜色分量的色调值确定

Z字形编排
- 重新编排量化后的系数，增加连续的0值系数数目
- 排列方法：按Z字形排列

DC和AC系数编码
- 8×8图像块有1个DC系数和63个AC系数
- DC系数和AC系数要先转化为中间符号（intermediate symbol），再做熵编码
- 用中间符号表示DC和AC时，它们都是由两个符号组成：
  - 表示数据大小的可变长度码（Variable-Length Code，VLC），用的代码是霍夫曼码
  - 表示实际幅度的可变长度整数（Variable-Length Integer，VLI），用的代码是补码
- DC系数的编码可分三步进行：
  - DPCM编码（对DC系数）
  - 把DC差值或者行程码字转换成一个中间符号序列
  - 给这些符号赋以变长码字，编码长度与出现概率大小成反比（Huffman）

DPCM编码 Delta = DC(0,0)_i-DC(0,0)_{i-1}

DC差值中间符号由（尺寸）SSSS和（幅值）DIFF表示

尺寸表示DC差值的幅值编码所需的比特数

幅值表示DC差值的幅值，范围为[-2^{11},2^{11}-1]

符号编码（熵编码）：SSSS采用变长码编码（VLC），可直接查表

- AC系数的编码可分三步进行：
  - RLE编码
  - 生成中间符号
  - 符号编码（熵编码）

JPEG 2000
- 提高了性能、增加了功能

（5）语音编码

a. 声音信号数字化

从模拟过渡到数字
- 使用数字信号处理器（digital signal processor，DSP）
- 数字域中信号处理的主要优点：
  - 数字信号计算是精确计算，不受时间和环境变化影响
  - 复杂的数学运算容易实现
  - 可对数字运算部件进行编程
模拟信号与数字信号
- 模拟信号：时间和幅度上都是连续的信号
- 数字信号：时间和幅度都用离散值表示的信号
  - 在特定时刻对模拟信号进行测量叫做采样（sampling），由这些特定时刻采样得到的信号称为离散时间信号。
  - 采样得到的幅值是无穷多实数值中的一个。如果把信号幅度取值得数目加以限定，这种由有限数目的数值组成的信号称为离散幅度信号。
数字化的概念
- 声音进入计算机的第一步就是数字化
- 模拟信号在时间和幅度都用离散值表示
采样速率/采样频率
- 由信号本身包含的最高频率决定，信号的频率越高，需要的采样速率就越高
- 奈奎斯特理论，采样速率不应低于声音信号最高频率的两倍
- 使用奈奎斯特理论采样，能把以数字表达的声音还原成原来的声音，称为无损数字化（lossless digitization）
采样精度
- 度量声音波形幅度的精确程度，通常用存储每个声音样本的位数（n）来表示
- 精度是度量模拟信号的最小单位，称为量化阶（quantization step size）
声音质量与数据率
- 根据声音频带，声音质量分为5个等级，由低到高

- 声音质量的MOS评分标准
  - 声音信号的带宽
  - 客观质量度量：

b. 语音编码介绍

编码方法：三种类型
- 波形编码
  - 用数字形式精确地表示模拟信号波形的编码方法，不考虑语音产生和感知特性
  - 算法包括：
    - PCM（pulse code modulation）：脉冲编码调制
    - APCM（adaptive pulse code modulation）：自适应脉冲编码调制
    - DPCM（differential pulse code modulation）：差分脉冲编码调制
    - ADPCM（adaptive differential pulse code modulation）：自适应差分脉冲编码调制
- 参数编码
  - 利用发音器官生成语音信号的模型，对从语音信号中抽出的语音特征参数（如发音模型、有声/无声、音量大小、音调）进行编码的方法。
  - 解码器根据模型参数重构语音信号
  - 算法包括：
    - LPC（Linear Predictive Coding）：线性预测编码
    - Channel coding：信道编码
    - Phase coding：相位编码
    - Formant coding：共振峰编码
- 混合编码
  - 综合使用波形编码和参数编码技术，组合波形特性和语音特征参数的编码方法。
  - 既有波形编码语音质量高的优点，又有参数编码数据速率低的优点
  - 主要用在语音质量要求高的移动通信系统
  - 算法包括：
    - APC（adaptive predictive coding）：自适应预测编码
    - RELP(residual-excited linear prediction): 残余激励线性预测
    - CELP(code excited linear predictive): 码激励线性预测
    - SBC（sub-band coding）：子带编码

c. 波形编码

基本思想：使重构建语音信号的波形与原始信号的波形尽量接近
语音质量：语音编码质量最好的编码方法
编码方法：PCM，DM，ADM，APCM，DPCM，ADPCM和SB-ADPCM
- PCM

- APCM

- DPCM

- ADPCM

- SB-ADPCM

语音编码标准

d. 参数编码

概念：
- 对语音的特征参数进行编码，也称声源编码（source coding）
- 利用发音器官生成语音信号的模型，从语音信号中抽出表示语音信号的特征参数

数字滤波器
- 可对数字信号执行滤波功能的软硬件

Z变换

差分方程
- 在数学上，差分方程是指任何类型的递推关系
线性预测编码

语音生成模型

LPC声码器

e. 混合编码

（6）MPEG压缩编码

a. 为什么视频能压缩

视频数据中存在大量的冗余数据，包括时间冗余、空间冗余、结构冗余、视觉冗余、知识冗余和数据冗余
- 时间冗余（temporal redundancy）
- 空间冗余（spatial redundancy）
- 结构冗余（structural redundancy）
- 视觉冗余（vision redundancy）
- 知识冗余（knowledge redundancy）
- 数据冗余（data redundancy）
MPEG视频标准利用的冗余：时间冗余、空间冗余、视觉冗余和数据冗余

b. 谁在组织视频压缩编码

两个著名的组织
- ITU-T VCEG（Video Coding Experts Group）专家组
  - H.26x标准——用于实时视频通信
- ISO/IEC MPEG（Moving Picture Experts Group）专家组
  - MPEG标准——用于广播电视、DVD和视频流媒体
MPEG主要包括MPEG视频、MPEG音频和MPEG系统（视音频同步）三个部分
MPEG-1和MPEG-2是MPEG组织制定的第一代视音频压缩标准。
MPEG-4是基于第二代视音频编码技术制定的压缩标准。
MPEG-7是多媒体内容描述标准
MPEG-21的重点是建立统一的多媒体框架

c. MPEG-1视频

视频数据的压缩算法

在空间方向上，采用与JPEG类似的算法去掉空间冗余数据
在时间方向上，采用移动补偿（motion compensation）算法去掉时间冗余数据
MPEG专家组开发两项重要技术：
- 定义了视频数据的结构

- 定义了三种类型的图像
  - 帧内图像I（intra-picture），简称I图像或I帧
  - 预测图像P（predicted picture），简称P图像或P帧
  - 双向预测图像B（bidirectionally-predictive picture），简称B图像或B帧
由于MPEG对视频信号作随机存取的重要要求，有必要每隔一段时间传送1帧只采用帧内编码的图像作为参考图像，使得预测环路能在某一参考帧丢失后，迅速获得另一个参考帧，从而恢复到正常工作状态。
GOP（Group of Picture）：两个I帧之间的图像构成一个组

帧内图像I的压缩编码算法

预测图像P的压缩编码算法

双向预测图像B的压缩编码算法

帧图像的编排顺序

视频数据流的结构

数据位流的组织关系到如何设计解码器，没有统一规范，设计的解码器就不能通用。
按层次结构组织，一个视频序列（video sequence）分为6层：
- 序列层（sequence）
- 像组层（GOP，group of pictures）
- 图片层（picture）
- 像片层（slice）
- 宏块层（macroblock，MB）
- 图块层（block）

d. MPEG-2视频

MPEG-2视频是MPEG-1视频标准的扩展版本，全面继承了MPEG-1视频数据压缩算法，增添了许多新的语法结构和算法，用于支持
- 顺序扫描和隔行扫描
- NTSC、PAL、SECAM和HDTV格式的视频
- 视频的实时传输
为适应各种不同的应用，MPEG-2视频标准定义了多种视频质量可变的编码方式
视频编码器和解码器和MPEG-1基本相同

e. MPEG-4视频

视频对象编码与解码概要
- 视频对象平面的概念
  - MPEG-4 Visual标准使用自然可视对象（natural visual object）和合成可视对象（synthetic visual object）代替MPEG-1和MPEG-2使用的帧（frame）
  - 把在给定时刻的视频对象的画面称为视频对象（平）面（video object plane，VOP）
- 视频对象平面的结构
  - 把视频帧当作VOP对待
  - 画面当作纹理（texture）对待
  - 可视对象：指使用分割算法从场景中抽取的单独的物理对象。
  - VOP编码被认为由形状编码、纹理编码和移动编码组成，并将它称为扩展MPEG-4核心编码器（extended MPEG-4 core coder）。
- 视频对象平面的类型
  - I-VOP（帧内视频对象平面）
  - P-VOP（预测视频对象平面）
  - B-VOP（双向预测视频对象平面）
  - 两种精灵视频对象平面
    - S-VOP（sprite-VOP）：对从静态精灵对象或参考VOP中获得的信息进行编码的图像。
    - S(GMC)-VOP：使用全局移动补偿（global motion compensation，GMC）技术得到的预测编码图像。
- 编码器和解码器结构