今天继续给大家分享音视频面试过程会被常问到的一些问题!
这里的话主要分以下几步完成:
开启一个线程进行解封装操作 , 这包括:读取音频、视频的压缩数据,并进行区分。若视频数据则插入视频队列,音频数据则插入音频队列。
再开启两个解码线程分别对音频、视频的压缩数据进行解码处理,比方说:视频解码线程主要从视频队列拿数据并进行解码。音频解码线程主要从音频压缩队列拿数据并进行音频解码,并进行音频时钟的计算。音频时钟的计算就是音频PTS的计算,而视频pts则跟音频pts进行校准,进行音视频的同步。
H264的封装一般分为VCL层和NAL层。
VCL(Video Coding Layer)视频编码层:包括了压缩引擎和块、片语法的定义,并设计目标独立于网络高效编码,它的作用是有效表示视频数据的内容。
NAL(NetWork Abstraction Layer)网络提取层:它主要负责的是将VCL产生的比特字符串适配到各种各样的网络和多源环境中,覆盖了片级别的语法;通常一个NALU单元是由[NALU HEADER] + [NALU Payload]组成。NAL本质上是对VCL进行封装包裹。
StartCode(0x000001或0x00000001)作为起始码。
NALU就是H264的实际数据部分。NALU = NALU Header + EBSP组成;
EBSP = 防竞争码 + RBSP;
RBSP = SODB + RBSP尾部
我们来看看NALU HEADER和NALU Payload的结构:
NALU Header一般分为两种流格式,一种是Annex-B格式,另外一种是RTP包流格式。
Annex-B格式是默认输出格式。数据单元的分割是通过[StartCode] (0x000001或0x00000001)作为起始码。
F:禁止位,占1bit forbidden_zero_bit:F禁止位,占用NALU Header的第一个位,值默认0,值为1表示错误。
R:指示位,占2bit Nal_refreence_bit(2bits):NRI重要性指示位,占用NALU Header第二位、三位,用来表示NAL单元,取值越大,NAL越重要。
T:负荷数据类型,占5BIT nal_unit_type(5bits):Type类型,占用NALU Header第四到第八位,用来表示NAL单元类型,下面是具体的表格:
NALU的主体涉及到几个重要的名词,分别为EBSP、RBSP和SODB。其中EBSP基本上是NALU主体,这三者的关系式EBSP包含RBSP,RBSP包含SODB:
下面这张图是SODB、RBSP、EBSP的结结构图:
下面这张图是SODB、RBSP、EBSP的结结构图