当前位置：首页 > article >正文

FFmpeg的入门实践系列六(编程入门之常见处理流程)

article 2025/2/19 6:54:30

在这里插入图片描述

欢迎诸位来阅读在下的博文~
在这里，在下会不定期发表一些浅薄的知识和经验，望诸位能与在下多多交流，共同努力

文章目录

前期博客
参考书籍
一、FFmpeg常见的处理流程
- - 复制编解码器的参数
  - 完整代码
二、创建并写入音视频文件
三、总结
附页

前期博客

FFmpeg的入门实践系列一(环境搭建)
FFmpeg的入门实践系列二(基础知识)
FFmpeg的入门实践系列三(基础知识)
FFmpeg的入门实践系列四(AVS)
FFmpeg的入门实践系列五(编程入门之属性查看)

参考书籍

《FFmpeg开发实战——从零基础到短视频上线》——欧阳燊

一、FFmpeg常见的处理流程

承接上章，上一章其实讲了三个对象，一个是AVFormatContext，代表音视频文件，然后是其相关的属性；一个是AVStream，代表音视频文件里面的数据流（音频流、视频流、字幕流等等），然后是其相关属性；一个是AVCodec，代表数据流里面的编解码器规格，然后是其相关属性。整个过程是一个由大到小的，层层深入的过程。这一章，将继续讲解编解码器的相关内容。

复制编解码器的参数

其实，AVCodec结构仅仅是规格定义，它在描述一个编解码器是怎么样的，但是它没有真正执行编码解码的功能，就是一个”光说不做的主“。要想执行真正的编码解码操作，还需要引入AVCodecContext才行。
具体的写代码流程如下：

打开编解码器实例的完整流程：avcodec_alloc_context3–>avcodec_parameters_to_context–>avcodec_open2
关闭编解码器实例的完整流程：avcodec_close–>avcodec_free_context

在编解码器实例打开之后，才能对数据包或者数据帧进行编解码操作，具体而言，就是数据包AVPacket经过解码生成数据帧AVFrame；反之亦然。下面代码片段演示如何打开编解码的实例：

AVCodecContext *video_decode_ctx = NULL;
video_decode_ctx = avcodec_alloc_context3(video_codec);
if(video_decode_ctx == NULL) {
    av_log(NULL, AV_LOG_ERROR, "Could not allocate video decode context\n");
    return -1;
}
// 把视频流中的编解码参数复制给解码器的实例
avcodec_parameters_to_context(video_decode_ctx, video_stream->codecpar);
av_log(NULL, AV_LOG_INFO, "success copy video stream parameters to video decode context\n");
ret = avcodec_open2(video_decode_ctx, video_codec, NULL);// 打开解码器
av_log(NULL, AV_LOG_INFO, "success open video decode context\n");
if(ret < 0) {
    av_log(NULL, AV_LOG_ERROR, "Could not open video decoder\n");
    return -1;
}
avcodec_close(video_decode_ctx); // 关闭解码器
avcodec_free_context(&video_decode_ctx); // 释放解码器资源

其实只要调用了avcodec_paramters_to_context函数，就能获取音视频文件的详细编码参数，具体参数保存在AVCodecContext结构中，该结构的常见字段说明如下：

codec_id: 编解码器的编号。//比如AV_CODEC_ID_MJPEG 7 JPEG图像编码标准
codec_type: 编解码器的类型。// AVMEDIA_TYPE_VIDEO 0 视频流
width: 视频画面的宽度
height: 视频画面的高度
gop_size: 每两个关键帧(I帧）间隔多少帧
max_b_frames: 双向预测帧(B帧）的最大数量
pix_fmt: 视频的像素格式。像素格式的定义来自AVPixelFormat枚举，详细的像素格式类型及其说明见附页
profile: 指定编解码器的配置文件，主要用于细分AAC音频的种类，详细的AAC种类定义及其说明见附页
ch_layout: 音频的声道布局，该字段为AVChannelLayout结构，声道数量是该结构的nb_channels字段。声道数量及其定义见附页
sample_fmt: 音频的采样格式。采样格式的定义来自AVSampleFormat枚举，详细的采样格式定义见附页
sample_rate: 音频的采样频率，单位为赫兹（次每秒）
frame_size: 音频的帧大小，也叫采样个数，即每个音频帧采集的样本数量
bit_rate: 码率，也叫比特率，单位为比特每秒
time_base: 音视频的时间基，该字段为AVRatianal结构

完整代码

接下来把AVStream到AVCodec再到AVCodecContext的完整流程串起来，分别在视频流和音频流中寻找它们的解码器的实例，并执行实例的打开和关闭操作。

#include <stdio.h>
#ifdef __cplusplus
extern "C"
{
#endif
#include <libavformat/avformat.h>
#include <libavcodec/avcodec.h>
#include <libavutil/avutil.h>
#ifdef __cplusplus
};
#endif


int main(int argc, char** argv){
    const char* filename = "../fuzhou.mp4";
    if(argc > 1)
        filename = argv[1];
    AVFormatContext* fmt_ctx = NULL;
    int ret = avformat_open_input(&fmt_ctx, filename, NULL, NULL);
    if(ret < 0){
        av_log(NULL, AV_LOG_ERROR, "Could not open file %s\n", filename);
        return -1;
    }
    av_log(NULL, AV_LOG_INFO, "Opened file %s\n", filename);
    //查找音视频文件中的流信息
    ret = avformat_find_stream_info(fmt_ctx, NULL);
    if(ret < 0){
        av_log(NULL, AV_LOG_ERROR, "Could not find stream information\n");
        return -1;
    }
    av_log(NULL, AV_LOG_INFO, "Success find stream information.\n");
    av_log(NULL, AV_LOG_INFO, "duration=%d\n", fmt_ctx->duration); // 持续时间，单位微秒
    av_log(NULL, AV_LOG_INFO, "nb_streams=%d\n", fmt_ctx->nb_streams); // 数据流的数量
    av_log(NULL, AV_LOG_INFO, "max_streams=%d\n", fmt_ctx->max_streams); // 数据流的最大数量
    av_log(NULL, AV_LOG_INFO, "video_codec_id=%d\n", fmt_ctx->video_codec_id);
    av_log(NULL, AV_LOG_INFO, "audio_codec_id=%d\n", fmt_ctx->audio_codec_id);

    // 找到视频流的索引
    int video_stream_index = av_find_best_stream(fmt_ctx, AVMEDIA_TYPE_VIDEO, -1, -1, NULL, 0);
    av_log(NULL, AV_LOG_INFO, "video_stream_index=%d\n", video_stream_index);
    if(video_stream_index >= 0){
        AVStream* video_stream = fmt_ctx->streams[video_stream_index];
        enum AVCodecID video_codec_id = video_stream->codecpar->codec_id;
        av_log(NULL, AV_LOG_INFO, "video_codec_id=%d\n", video_codec_id);
        // 查找视频解码器
        AVCodec* video_codec = (AVCodec*)avcodec_find_decoder(video_codec_id);
        if(video_codec == NULL){
            av_log(NULL, AV_LOG_ERROR, "Could not find video decoder\n");
            return -1;
        }
        av_log(NULL, AV_LOG_INFO, "video_codec_name=%s\n", video_codec->name);
        av_log(NULL, AV_LOG_INFO, "video_codec long_name=%s\n", video_codec->long_name);
        av_log(NULL, AV_LOG_INFO, "video_codec_type=%d\n", video_codec->type);

        // 视频解码器的实例
        AVCodecContext* video_dec_ctx = NULL;
        video_dec_ctx = avcodec_alloc_context3(video_codec);
        if(video_dec_ctx == NULL){
            av_log(NULL, AV_LOG_ERROR, "Could not allocate video decoder context\n");
            return -1;
        }
        //把视频流中的编解码器参数复制到解码器实例中
        avcodec_parameters_to_context(video_dec_ctx, video_stream->codecpar);
        av_log(NULL, AV_LOG_INFO, "Success copy video stream parameters to decoder context.\n");
        av_log(NULL, AV_LOG_INFO, "video_dec_ctx->width=%d\n", video_dec_ctx->width);
        av_log(NULL, AV_LOG_INFO, "video_dec_ctx->height=%d\n", video_dec_ctx->height);
        //打开视频解码器
        ret = avcodec_open2(video_dec_ctx, video_codec, NULL);
        if(ret < 0){
            av_log(NULL, AV_LOG_ERROR, "Could not open video decoder\n");
            return -1;
        }
        av_log(NULL, AV_LOG_INFO, "Success open video decoder.\n");
        av_log(NULL, AV_LOG_INFO, "video_decode profile = %d\n", video_dec_ctx->profile);
        avcodec_close(video_dec_ctx);
        avcodec_free_context(&video_dec_ctx);

    }

    // 找到音频流的索引
    int audio_stream_index = av_find_best_stream(fmt_ctx, AVMEDIA_TYPE_AUDIO, -1, -1, NULL, 0);
    av_log(NULL, AV_LOG_INFO, "audio_stream_index=%d\n", audio_stream_index);
    if(audio_stream_index >= 0){
        AVStream* audio_stream = fmt_ctx->streams[audio_stream_index];
        enum AVCodecID audio_codec_id = audio_stream->codecpar->codec_id;
        av_log(NULL, AV_LOG_INFO, "audio_codec_id=%d\n", audio_codec_id);
        // 查找音频解码器
        AVCodec* audio_codec = (AVCodec*)avcodec_find_decoder(audio_codec_id);
        if(audio_codec == NULL){
            av_log(NULL, AV_LOG_ERROR, "Could not find audio decoder\n");
            return -1;
        }
        av_log(NULL, AV_LOG_INFO, "audio_codec_name=%s\n", audio_codec->name);
        av_log(NULL, AV_LOG_INFO, "audio_codec long_name=%s\n", audio_codec->long_name);
        av_log(NULL, AV_LOG_INFO, "audio_codec_type=%d\n", audio_codec->type);

        // 音频解码器的实例
        AVCodecContext* audio_dec_ctx = NULL;
        audio_dec_ctx = avcodec_alloc_context3(audio_codec);
        if(audio_dec_ctx == NULL){
            av_log(NULL, AV_LOG_ERROR, "Could not allocate audio decoder context\n");
            return -1;
        }
        //把音频流中的编解码器参数复制到解码器实例中
        avcodec_parameters_to_context(audio_dec_ctx, audio_stream->codecpar);
        av_log(NULL, AV_LOG_INFO, "Success copy audio stream parameters to decoder context.\n");
        av_log(NULL, AV_LOG_INFO, "audio_dec_ctx->sample_rate=%d\n", audio_dec_ctx->sample_rate);
        av_log(NULL, AV_LOG_INFO, "audio_dec_ctx->channels=%d\n", audio_dec_ctx->ch_layout.nb_channels);
        //打开音频解码器
        ret = avcodec_open2(audio_dec_ctx, audio_codec, NULL);
        if(ret < 0){
            av_log(NULL, AV_LOG_ERROR, "Could not open audio decoder\n");
            return -1;
        }
        av_log(NULL, AV_LOG_INFO, "Success open audio decoder.\n");
        av_log(NULL, AV_LOG_INFO, "audio_decode profile = %d\n", audio_dec_ctx->profile);
        avcodec_close(audio_dec_ctx);
        avcodec_free_context(&audio_dec_ctx);
    }
    avformat_close_input(&fmt_ctx);
    return 0;
}

编译：

gcc para.c -o para -I /usr/local/ffmpeg/include -L /usr/local/ffmpeg/lib -lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm

输出结果：
在这里插入图片描述
由日志信息可见，视频流和音频流的解码器实例都被找到并且成功打开，还发现目标文件的视频宽高为1440*810，并且音频格式为AAC-LC（profile=1，根据表2-7找到规格说明），声道类型为双声道（立体声）。

二、创建并写入音视频文件

前面介绍的音视频处理属于对文件的读操作，如果是写操作，那又是另一套流程。写入音视频文件的总体步骤说明如下：

01 调用avformat_alloc_output_context2函数分配音视频文件的封装实例
02 调用avio_open函数打开音视频文件的输出流
03 调用avformat_write_header函数写入音视频的文件头
04 多次调用av_write_frame函数写入音视频的数据帧
05 调用av_write_trailer函数写入音视频的文件尾
06 调用avio_close函数关闭音视频文件的输出流
07 调用avformat_free_context函数释放音视频文件的封装实例

需要注意的是，音视频文件要求至少封装一路数据流，要么封装单路视频，要么封装单路音频，要么两者都封装。以下是音视频文件封装数据流的总体步骤说明：

01 调用avcodec_find_encoder函数查找指定编号的编码器
02 调用avcodec_alloc_context3函数根据编码器分配对应的编码器实例。对于视频来说，还要设置编码器实例的width和height字段
03 调用avformat_new_stream函数，给输出文件创建采用指定编码器的数据流
04 调用avcodec_paramters_from_context函数把编码器实例的参数复制给数据流

上述的封装步骤虽然没有写入真实的数据帧，但不影响程序的正常运行。因为已经创建了一路视频流，不过是空而已。综合上述，可以得出完整代码如下：

#include <stdio.h>

// 之所以增加__cplusplus的宏定义，是为了同时兼容gcc编译器和g++编译器
#ifdef __cplusplus
extern "C"
{
#endif
#include <libavformat/avformat.h>
#include <libavcodec/avcodec.h>
#include <libavutil/avutil.h>
#ifdef __cplusplus
};
#endif

int main(int argc, char **argv) {
    const char *filename = "output.mp4";
    if (argc > 1) {
        filename = argv[1];
    }
    AVFormatContext *out_fmt_ctx;
    // 分配音视频文件的封装实例
    int ret = avformat_alloc_output_context2(&out_fmt_ctx, NULL, NULL, filename);
    if (ret < 0) {
        av_log(NULL, AV_LOG_ERROR, "Can't alloc output_file %s.\n", filename);
        return -1;
    }
    // 打开输出流
    ret = avio_open(&out_fmt_ctx->pb, filename, AVIO_FLAG_READ_WRITE);
    if (ret < 0) {
        av_log(NULL, AV_LOG_ERROR, "Can't open output_file %s.\n", filename);
        return -1;
    }
    av_log(NULL, AV_LOG_INFO, "Success open output_file %s.\n", filename);
    
    // 查找编码器
    AVCodec *video_codec = (AVCodec*) avcodec_find_encoder(AV_CODEC_ID_H264);
    if (!video_codec) {
        av_log(NULL, AV_LOG_ERROR, "AV_CODEC_ID_H264 not found\n");
        return -1;
    }
    AVCodecContext *video_encode_ctx = NULL;
    video_encode_ctx = avcodec_alloc_context3(video_codec); // 分配编解码器的实例
    if (!video_encode_ctx) {
        av_log(NULL, AV_LOG_ERROR, "video_encode_ctx is null\n");
        return -1;
    }
    video_encode_ctx->width = 320; // 视频画面的宽度
    video_encode_ctx->height = 240; // 视频画面的高度
    // 创建指定编码器的数据流
    AVStream * video_stream = avformat_new_stream(out_fmt_ctx, video_codec);
    // 把编码器实例中的参数复制给数据流
    avcodec_parameters_from_context(video_stream->codecpar, video_encode_ctx);
    video_stream->codecpar->codec_tag = 0; // 非特殊情况都填0
    
    ret = avformat_write_header(out_fmt_ctx, NULL); // 写文件头
    if (ret < 0) {
        av_log(NULL, AV_LOG_ERROR, "write file_header occur error %d.\n", ret);
        return -1;
    }
    av_log(NULL, AV_LOG_INFO, "Success write file_header.\n");
    av_write_trailer(out_fmt_ctx); // 写文件尾
    avio_close(out_fmt_ctx->pb); // 关闭输出流
    avformat_free_context(out_fmt_ctx); // 释放封装器的实例
    return 0;
}

编译：

gcc write.c -o write -I /usr/local/ffmpeg/include -L /usr/local/ffmpeg/lib -lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm

输出结果：
在这里插入图片描述

三、总结

本章中，主讲了对音视频文件的从上到下的读写流程。这里着重讲了AVCodecContext这个结构体的使用方法，诸位在实际开发时，一定要有层次意识，首先要问一下该代码片段处理的内容是处于什么位置的，是属于音视频文件(AVFormatContext)，属于数据流(AVStream)，还是属于数据流下面的编解码器(AVCodec,AVCodecContext)？把脉络给理清了，开发过程中才不会如同无头苍蝇乱闯。
下一期，会更精彩，期待诸位的关注~

附页

像素格式类型	对应数值(可能不同版本数值不同)	应用场合
AV_PIX_FMT_YUV420P	0	YUV 4:2:0 格式，适用于大多数YUV视频编码
AV_PIX_FMT_YUV422P	1	YUV 4:2:2 格式，适用于高质量视频编码
AV_PIX_FMT_YUV444P	2	YUV 4:4:4 格式，适用于高质量视频编码
AV_PIX_FMT_YUVJ420P	3	YUV 4:2:0 格式，适用于JPEG格式的YUV视频
AV_PIX_FMT_YUVJ422P	4	YUV 4:2:2 格式，适用于JPEG格式的YUV视频
AV_PIX_FMT_YUVJ444P	5	YUV 4:4:4 格式，适用于JPEG格式的YUV视频
AV_PIX_FMT_RGB24	6	24位RGB格式，适用于计算机显示和图像处理
AV_PIX_FMT_BGR24	7	24位BGR格式，适用于计算机显示和图像处理
AV_PIX_FMT_GRAY8	8	8位灰度格式，适用于灰度图像和视频
AV_PIX_FMT_MONOBLACK	9	单色（黑和白）格式，适用于特定的图像处理需求
AV_PIX_FMT_MONOWHITE	10	单色（白和黑）格式，适用于特定的图像处理需求
AV_PIX_FMT_NV12	12	YUV 4:2:0 格式，适用于硬件加速和某些视频编码
AV_PIX_FMT_NV21	13	YUV 4:2:0 格式，与NV12类似，但存储顺序不同
AV_PIX_FMT_ARGB	16	ARGB格式，适用于图像处理和某些视频编码
AV_PIX_FMT_RGBA	17	RGBA格式，适用于图像处理和某些视频编码
AV_PIX_FMT_ABGR	18	ABGR格式，适用于图像处理和某些视频编码
AV_PIX_FMT_BGRA	19	BGRA格式，适用于图像处理和某些视频编码

AAC配置文件	对应数值	说明
FF_PROFILE_AAC_LOW	1	低复杂度AAC，最常用，音质与复杂度平衡。
FF_PROFILE_AAC_SSR	2	采样率可调节的AAC
FF_PROFILE_AAC_LTP	3	长期预测的AAC
FF_PROFILE_AAC_HE	4	高效率的AAC
FF_PROFILE_AAC_HE_V2	28	第二版的HE-AAC
FF_PROFILE_AAC_LD	22	低时延的AAC
FF_PROFILE_AAC_ELD	38	增强型的低时延的AAC
FF_PROFILE_UNKNOWN	-99	未知配置文件，表示未指定或无法识别的配置。

声道类型	声道数量	音频位置
单声道	1	中心位置，适用于所有音频内容
双声道	2	左右分布，提供基本的立体声体验
2.1环绕声	3	左、右和低音炮，增强低频效果
4.0环绕声	4	前左、前右、后左、后右，提供更广阔的声场
4.1环绕声	5	4.0环绕声基础上增加一个低音炮声道
5.1环绕声	6	前左、前右、后左、后右、低音炮和中央声道
6.1环绕声	7	5.1环绕声基础上增加一个后中/侧环绕声道
7.1环绕声	8	5.1环绕声基础上增加两个侧环绕声道
7.1.2环绕声	9	7.1环绕声基础上增加两个高度声道
7.1.4环绕声	10	7.1.2环绕声基础上增加两个高度环绕声道
22.2环绕声（IMAX 12.1）	13	7.1.4环绕声基础上增加五个侧面环绕声道

采样格式类型	对应数值	说明
AV_SAMPLE_FMT_U8	0	无符号8位采样，交错模式
AV_SAMPLE_FMT_S16	1	有符号16位采样，交错模式
AV_SAMPLE_FMT_S32	2	有符号32位采样，交错模式
AV_SAMPLE_FMT_FLT	3	单精度浮点采样，交错模式
AV_SAMPLE_FMT_DBL	4	双精度浮点采样，交错模式
AV_SAMPLE_FMT_U8P	5	无符号8位采样，平面模式
AV_SAMPLE_FMT_S16P	6	有符号16位采样，平面模式
AV_SAMPLE_FMT_S32P	7	有符号32位采样，平面模式
AV_SAMPLE_FMT_FLTP	8	单精度浮点采样，平面模式
AV_SAMPLE_FMT_DBLP	9	双精度浮点采样，平面模式
AV_SAMPLE_FMT_S64	10	有符号64位采样，交错模式
AV_SAMPLE_FMT_S64P	11	有符号64位采样，平面模式
AV_SAMPLE_FMT_S16S	12	有符号16位采样，交错模式，小端字节序
AV_SAMPLE_FMT_S32S	13	有符号32位采样，交错模式，小端字节序
AV_SAMPLE_FMT_FLTS	14	单精度浮点采样，交错模式，小端字节序
AV_SAMPLE_FMT_DBLS	15	双精度浮点采样，交错模式，小端字节序
AV_SAMPLE_FMT_S16S_PLANAR	16	有符号16位采样，平面模式，小端字节序
AV_SAMPLE_FMT_S32S_PLANAR	17	有符号32位采样，平面模式，小端字节序
AV_SAMPLE_FMT_FLTS_PLANAR	18	单精度浮点采样，平面模式，小端字节序
AV_SAMPLE_FMT_DBLS_PLANAR	19	双精度浮点采样，平面模式，小端字节序

为了方便诸位编译，在此提供CMakeLists.txt文件

cmake_minimum_required(VERSION 3.10)

# 项目名称
project(Helloffmpeg)

# 设置 C 标准
set(CMAKE_C_STANDARD 99)

# 指定源文件
set(SRC write.c)

# 指定头文件搜索路径
include_directories(/usr/local/ffmpeg/include)

# 指定库文件搜索路径
link_directories(/usr/local/ffmpeg/lib)

# 添加可执行文件
add_executable(write ${SRC})

# 链接 FFmpeg 库
target_link_libraries(write
    avformat
    avdevice
    avfilter
    avcodec
    avutil
    swscale
    swresample
    postproc
    m
)