音视频八股文（1）--音视频基础

福大大架构师每日一题

发布于 2023-06-08 16:55:46

1.1K0

文章被收录于专栏：福大大架构师每日一题福大大架构师每日一题

# 1.1.音视频录制原理

# 1.2.音视频播放原理

# 1.3.图像表示RGB-YUV

## 1.3.1 图像基础概念

? 像素：像素是一个图片的基本单位，pix是英语单词picture的简写，加上英

语单词“元素element”，就得到了“pixel”，简称px，所以“像素”有“图像元素”

之意。

? 分辨率：是指图像的大小或尺寸。比如1920x1080。

? 位深：是指在记录数字图像的颜色时，计算机实际上是用每个像素需要的

位深来表示的。比如红色分量用8bit。

? 帧率：在1秒钟时间里传输的图片的帧数，也可以理解为图形处理器每秒钟

能够刷新几次。比如25fps表示一秒有25张图片。

? 码率：视频文件在单位时间内使用的数据流量。比如1Mbps。

? Stride：指在内存中每行像素所占的空间。为了实现内存对齐每行像素在

内存中所占的空间并不一定是图像的宽度

### 1.3.1.1 像素

像素是一个图片的基本单位，pix是英语单词picture的简写，加上英语单词“元素element”，就得到了“pixel”，简称px，所以“像素”有“图像元素”之意。

例如2500×2000的照片就是指横向有2500个像素点，竖向有2000个像素点，总共是500万个像素，也俗称500万像素照片。

### 1.3.1.2 分辨率

图像（或视频）的分辨率是指图像的大小或尺寸。我们通常用像素表示图像的尺寸。

例如2500×2000的照片就是指横向(宽)有2500个像素点，竖向(高)有2000个像素点。

常见的分辨率：

360P(640x360)、720P(1280x720)、1080P(1920x1080)、4K(3840x2160)、8K(7680x4320)

### 1.3.1.2 分辨率-不同分辨率之间的区别

常说的 1080 和 720 其实是指垂直像素数，分辨率除去垂直像素，还需要考虑到水平像

素数。按照 16:9 (宽 : 高) 的比例计算，720p 的水平像素数为 720 ÷ 9 × 16 = 1280，总

计像素为921600像素即大约为 92 万像素。1080p 具有 1920 个水平像素，总计2073600

像素即约 200 万像素，是 720p 的两倍多。

像素越多视频就越清晰，所以 1080p 比 720p 的视频更加清晰。图像的分辨率越高，图像就越清晰。

### 1.3.1.3 位深

我们看到的彩色图片，都有三个通道，分别为红(R)、绿(G)、蓝(B)通道。（如果需

要透明度则还有alpha分量）

通常每个通道用8bit表示，8bit能表示256种颜色，所以可以组成

256*256*256=16,777,216 = 1677万种颜色。

这里的8bit就是我们讲的位深。

每个通道的位深越大，能够表示的颜色值就越大，比如现在高端电视说的10bit色

彩，即是每个通道用10bit表示，每个通道有1024种颜色。1024*1024*1024约为

10,7374万色=10亿色，是8bit的64倍。

常见的颜色还是8bit居多。

### 1.3.1.4 帧率

帧率即 FPS（每秒有多少帧画面），经常玩游戏的同学应该会对这个词很熟悉。我们玩游

戏时，FPS 帧率越高就代表游戏画面越流畅，越低则越卡顿。视频也是如此。

由于视觉图像在视网膜的暂时停留，一般图像帧率能达到24帧，我们就认为图像是连续

动态的。

电影帧率一般是 24fps（帧每秒）；

电视剧一般是25fps；

监控行业常用 25fps；

音视频通话常用15fps；

帧率越高，画面越流畅，需要的设备性能也越高。

播放 5帧、24帧视频对比。

### 1.3.1.5 码率

? 视频文件在单位时间内使用的数据流量。比如1Mbps。

? 大多数情况下码率越高分辨率越高，也就越清晰。但模糊的视频文件大小（码率）也可以很大，分辨率小的视频文件可能也比分辨率大的视频文件清晰。

? 对于同一个原始图像源的时候，同样的编码算法，则码率越高，图像的失真就会越小，视频画面就会越清晰

对比不同码率的转码。

### 1.3.1.6 Stride跨距

? Stride ：指在内存中每行像素所占的空间。为了实现内存对齐每行像素在内存中所占的空间并不一定是图像的宽度。

? Stride 就是这些扩展内容的名称，Stride 也被称作 Pitch，如果图像的每一行像素末尾拥有扩展内容，Stride 的值一定大于图像的宽度值，就像下图所示：

? 比如分辨率638x480的RGB24图像，我们在内存处理的时候如果要以16字节对齐，则638*3/16=119.625不能整除，因此不能16字节对齐，我们需要在每行尾部填充6

个字节。就是(638+2->640), 640*3/16=120。此时该图片的stride为1920字节。

## 1.3.2 RGB、YUV深入讲解

### 1.3.2.1 RGB

? 我们前面已经讲过RGB色彩表示，这里我们重点讲RGB的排列。通常的图像像素是按RGB顺序进行排列，但有些图像处理要转成其他顺序，比如OpenCV经常转成BGR的排列方式。

### 1.3.2.2 YUV

? 与我们熟知RGB类似，YUV也是一种颜色编码方法，它是指将亮度参量（Y：Luminance或Luma）和色度参量（UV：Chrominance或Chroma）分开进行表示的像素编码格式。

? 这样分开的好处就是不但可以避免相互干扰，没有UV信息一样可以显示完整的图像，

因而解决了彩色电视与黑白电视的兼容问题；还可以降低色度的采样率而不会对图像质量影响太大，降低了视屏信号传输时对频宽（带宽）的要求。

? Y Y共用一组UV分量。

? YUV是一个比较笼统地说法，针对它的具体排列方式，可以分为很多种具体的格式：

? 打包（packed）格式：将每个像素点的Y、U、V分量交叉排列并以像素点为单元连续的存放在同一数组中，通常几个相邻的像素组成一个宏像素（macro-pixel）

? 平面（planar）格式：使用三个数组分开连续的存放Y、U、V三个分量，即Y、U、V分别存放在各自的数组中。

#### 1.3.2.2.1 YUV采样表示法

? YUV采用A:B:C表示法来描述Y,U,V采样频率比例，下图中黑点表示采样像素点Y分量，空心圆表示采样像素点的UV分量。主要分为 YUV 4:4:4、YUV 4:2:2、YUV 4:2:0 这几种常用的类型。

#### 1.3.2.2.2 YUV数据存储

? 下面以每个分量数据存储在一个char（或byte）中为例描述YUV的数据存储方式。

1. 4:4:4格式

2. 4:2:2格式

3. 4:2:0格式

YUV数据存储-4:2:0格式-参考

### 1.3.2.3 RGB和YUV的转换

? 通常情况下RGB和YUV直接的相互转换都是调用接口实现，比如Ffmpeg的swscale或者

libyuv等库。

? 主要转换标准是 BT601 和 BT709。

YUV(256 级别) 可以从8位 RGB 直接计算：

Y = 0.299*R + 0.587*G + 0.114*B;

U = -0.169*R - 0.331*G + 0.5 *B ;

V = 0.5 *R - 0.419*G - 0.081*B;

8bit位深的情况下

? TV range是16-235(Y)、16-240(UV) , 也叫Limited Range

? PC range是0-255，也叫Full Range

? 而RGB没有range之分，全是0-255

反过来，RGB 也可以直接从YUV (256级别) 计算:

R = Y + 1.402 (Y-128)

G = Y - 0.34414 (U-128) - 0.71414 (U-128)

B = Y + 1.772 (V-128)

? 从YUV 转到 RGB 如果值小于0要取0，如果大于255要取255

谷歌的libyuv库

### 1.3.2.4 RGB和YUV的转换-为什么解码出错显示绿屏

因为解码失败时YUV分量都填为0值，然后根据公式：

R = 1.402 * (-128) = -126.598

G = -0.34414*(-128) - 0.71414*(-128) = 44.04992 + 91.40992 = 135.45984

B = 1.772 * (-128) = -126.228

RGB 值范围为[0，255]，所以最终的值为：

R = 0

G = 135.45984

B = 0

此时只有G分量有值所以为绿色。

YUV -> RGB

### 1.3.2.5 YUV Stride对齐问题

比如分辨率638x480的YUV420P图像，我们在内存处理的时候如果要以16字

节对齐，则638不能被16整除，我们需要在每行尾部填充2个字节。就是640。

此时该图片的Y stride为640字节。

# 1.4.视频的主要概念

## 1.4.1 概念

视频码率：kb/s，是指视频文件在单位时间内使用的数据流量，也叫码流率。码率越大，说明单位时间内取样率越大，数据流精度就越高。

视频帧率：fps，通常说一个视频的25帧，指的就是这个视频帧率，即1秒中会显示25帧。帧率越高，给人的视觉就越流畅。

视频分辨率：分辨率就是我们常说的640x480分辨率、1920x1080分辨率，分辨率影响视频图像的大小。

I 帧（Intra coded frames）：I帧不需要参考其他画面而生成,解码时仅靠自己就重构完整图像;

I帧图像采用帧内编码方式;

I帧所占数据的信息量比较大;

I帧图像是周期性出现在图像序列中的，出现频率可由编码器选择;

I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);

I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;

I帧不需要考虑运动矢量;

P 帧（Predicted frames）：根据本帧与相邻的前一帧（I帧或P帧）的不同点来压缩本帧数据，同时利用了空间和时间上的相关性。

P帧属于前向预测的帧间编码。它需要参考前面最靠近它的I帧或P帧来解码。

B 帧（Bi-directional predicted frames）：B 帧图像采用双向时间预测，可以大大提高压缩倍数。

## 1.4.2 常用的视频压缩算法

MPEG2 MPEG阵营

H264 MPEG阵营

H265 MPEG阵营

AVS 中国阵营

VP8 Google阵营

VP9 Google阵营

音频基础-课程大纲

2.1 声音的物理性质

2.2 数字音频

2.3 音频基础名词

2.4 音频编码基本原理

2.5 音频编解码器选型

## 1.4.3 测试视频下载地址

1、地址：http://clips.vorwaerts-gmbh.de/big_buck_bunny.mp4 1分钟

2、地址：http://vjs.zencdn.net/v/oceans.mp4

3、地址：https://media.w3.org/2010/05/sintel/trailer.mp4 52秒

4、http://mirror.aarnet.edu.au/pub/TED-talks/911Mothers_2010W-480p.mp4 10分

钟

其他各种格式，MP4, flv, mkv, 3gp 视频下载

https://www.sample-videos.com/index.php#sample-mp4-video

参考文档

[看视频常见的 720p、1080p、4k，这些分辨率到底包含了什么](https://segmentfault.com/a/1190000023769775)

YUV详解：https://blog.csdn.net/u013898698/article/details/54927203

# 1.5 音频

## 1.5.1 声音的物理性质

### 1.5.2.1 声音的物理性质-振动

声音是一种由物体振动引发的物理现象，如小提琴的弦声等。物体的振动使其四周空气的压强产生变化，这种忽强忽弱变化以波的形式向四周传播，当被人耳所接收时，我们就听见了声音。

2.1 声音的物理性质-波形

声音是由物体的振动产生的，这种振动引起了周围空气压强的振荡，我们称这种振荡的函数表现形式为波形.

### 1.5.2.1 声音的物理性质-频率

声音的频率是周期的倒数，它表示的是声音在1秒钟内的周期数，单位是赫兹(Hz)。千赫(kHz),即1000Hz,表示每秒振动1000次。声音按频率可作如下划分:

次声 0～20Hz

人耳能听见的声音 20Hz～20KHz

超声 20KHz～1GHz

特超声 1GHz～10THz

### 1.5.2.1 声音的物理性质-振幅

声音有振幅，振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最大偏移量。

## 1.5.2 数字音频

为了将模拟信号数字化，本节将分为3个概念进行讲解：

采样频率、采样量化、编码

### 1.5.2.1 数字音频-采样频率

根据Nyguist采样定律，要从采样中完全恢复原始信号波形，采样频率必须至少是信号中最高频率的两倍。

前面提到人耳能听到的频率范围是[20H~20kHz]，所以采样频率一般为44.1Khz，这样就能保证声音到达20Khz也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。

采样频率：每秒钟采样的点的个数。常用的采样频率有：

22000（22kHz）：无线广播。

44100（44.1kHz）： CD音质。

48000（48kHz）：数字电视，DVD。

96000（96kHz）：蓝光，高清DVD。

192000(192kHz): 蓝光，高清DVD。

### 1.5.2.2 数字音频-采样量化

采样是在离散的时间点上进行的，而采样值本身在计算机中也是离散的。

采样值的精度取决于它用多少位来表示，这就是量化。例如8位量化可以表示256个不同值，而CD质量的16位量化可以表示65 536个值，范围为[-32768, 32767]。

下图是一个3位量化的示意图，可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1，因而量化位数越少，波形就越难辨认，还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)

### 1.5.2.3 音频常见名词

采样频率：每秒钟采样的点的个数。常用的采样频率有：

22000（22kHz）：无线广播。

44100（44.1kHz）：CD音质。

48000（48kHz）：数字电视，DVD。

96000（96kHz）：蓝光，高清DVD。

192000(192kHz): 蓝光，高清DVD。

采样精度（采样深度）：每个“样本点”的大小，

常用的大小为8bit， 16bit，24bit。

通道数：单声道，双声道，四声道，5.1声道。

比特率：每秒传输的bit数，单位为：bps（Bit Per Second）

间接衡量声音质量的一个标准。

没有压缩的音频数据的比特率 = 采样频率 * 采样精度 * 通道数。

码率：压缩后的音频数据的比特率。常见的码率：

96kbps： FM质量

128-160kbps：一般质量音频。

192kbps： CD质量。

256-320Kbps：高质量音频

码率越大，压缩效率越低，音质越好，压缩后数据越大。

码率 = 音频文件大小/时长。

帧：每次编码的采样单元数，比如MP3通常是1152个采样点作为一个编码单元，AAC通常是1024个采样点作为一个编码单元。

帧长：

可以指每帧播放持续的时间：每帧持续时间(秒) = 每帧采样点数 / 采样频率（HZ）

比如：MP3 48k, 1152个采样点,每帧则为 24毫秒

1152/48000= 0.024 秒 = 24毫秒；

也可以指压缩后每帧的数据长度。

所以讲到帧的时候要注意他适用的场合。

## 1.5.3 音频编码原理简介

数字音频信号如果不加压缩地直接进行传送，将会占用极大的带宽。例如，一套双声道数字音频若取样频率为44.1KHz，每样值按16bit量化，则其码率为：

2*44.1kHz*16bit=1.411Mbit/s

如此大的带宽将给信号的传输和处理都带来许多困难和成本（阿里云服务器带宽大于5M后，每M价格是100元/月），

因此必须采取音频压缩技术对音频数据进行处理，才能有效地传输音频数据。

数字音频压缩编码在保证信号在听觉方面不产生失真的前提下，对音频数据信号进行尽可能大的压缩，降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号，它们对确定声音的音色，音调等信息没有任何的帮助。

冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如，人耳所能察觉的声音信号的频率范围为20Hz～20KHz，除此之外的其它频率人耳无法察觉，都可视为冗余信号。

此外，根据人耳听觉的生理和心理声学现象，当一个强音信号与一个弱音信号同时存在时，弱音信号将被强音信号所掩蔽而听不见，这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应，主要表现在频谱掩蔽效应和时域掩蔽效应。

### 1.5.3.1 音频编码-频谱掩蔽效应

### 1.5.3.2 音频编码-时域掩蔽效应

当强音信号和弱音信号同时出现时，还存在时域掩蔽效应。即两者发生时间很接近的时候，也会发生掩蔽效应。时域掩蔽过程曲线如图所示，分为前掩蔽、同时掩蔽和后掩蔽三部分。

时域掩蔽效应可以分成三种：前掩蔽，同时掩蔽，后掩蔽。前掩蔽是指人耳在听到强信号之前的短暂时间内，已经存在的弱信号会被掩蔽而听不到。同时掩蔽是指当强信号与弱信号同时存在时，弱信号会被强信号所掩蔽而听不到。后掩蔽是指当强信号消失后，需经过较长的一段时间才能重新听见弱信号，称为后掩蔽。这些被掩蔽的弱信号即可视为冗余信号。