音视频基础
概述
视频播放流程
点击展开

音视频专业术语
- 视频封装格式: 将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中.
视频封装格式
| 视频文件格式 | 视频封装格式 | 备注 |
| .avi | AVI(Audio Video Interleaved) |
1. AVI 格式,对应的文件格式为 .avi,全称 Audio Video Interleaved,是由 Microsoft 公司于 1992 年推出。这种视频格式的优点是图像质量好,无损 AVI 可保存 alpha 通道。缺点是体积过于庞大,并且压缩标准不统一,存在较多的高低版本兼容问题. 2. DV-AVI 格式,对应的文件格式为 .avi,英文全称 Digital Video Format,是由索尼、松下、JVC 等多家厂商联合提出的一种家用数字视频格式。常见的数码摄像机就是使用这种格式记录视频数据的。它可以通过电脑的 IEEE 1394 端口传输视频数据到电脑,也可以将电脑中编辑好的的视频数据回录到数码摄像机中. |
| .wmv, .asf | WMV(Windows Media Video) | WMV 格式,对应的文件格式是 .wmv、.asf,英文全称 Windows Media Video,是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。在同等视频质量下,WMV 格式的文件可以边下载边播放,因此很适合在网上播放和传输。 |
| .mpg, .mpeg, .vob, .dat, .3gp, .mp4 | MPEG(Moving Picture Experts Group) | MPEG 格式,对应的文件格式有 .mpg、.mpeg、.mpe、.dat、.vob、.asf、.3gp、.mp4 等等,英文全称 Moving Picture Experts Group,是由运动图像专家组制定的视频格式,该专家组于 1988 年组建,专门负责视频和音频标准制定,其成员都是视频、音频以及系统领域的技术专家。MPEG 格式目前有三个压缩标准,分别是 **MPEG-1、MPEG-2、**和 MPEG-4。MPEG-4 是现在用的比较多的视频封装格式,它为了播放流式媒体的高质量视频而专门设计的,以求使用最少的数据获得最佳的图像质量。 |
| .mkv | Matroska | Matroska 格式,对应的文件格式是 .mkv,Matroska 是一种新的视频封装格式,它可将多种不同编码的视频及 16 条以上不同格式的音频和不同语言的字幕流封装到一个 Matroska Media 文件当中。 |
| .rm, .rmvb | Real Video | Real Video 格式,对应的文件格式是 .rm、.rmvb,是 Real Networks 公司所制定的音频视频压缩规范称为 Real Media。用户可以使用 RealPlayer 根据不同的网络传输速率制定出不同的压缩比率,从而实现在低速率的网络上进行影像数据实时传送和播放。 |
| .mov | QuickTime File Format | QuickTime File Format 格式,对应的文件格式是 .mov,是 Apple 公司开发的一种视频格式,默认的播放器是苹果的 QuickTime。这种封装格式具有较高的压缩比率和较完美的视频清晰度等特点,并可以保存 alpha 通道。 |
| .flv | Flash Video | Flash Video 格式,对应的文件格式是 .flv,是由 Adobe Flash 延伸出来的一种网络视频封装格式。这种格式被很多视频网站所采用 |
视频编码
| 名称 | 详情 | 备注 |
| H.26X 系列 |
H.26X 由国际电传视讯联盟远程通信标准化组织(ITU-T)主导,包括 H.261、H.262、H.263、H.264、H.265。 H.261,主要用于老的视频会议和视频电话系统。是第一个使用的数字视频压缩标准。实质上说,之后的所有的标准视频编解码器都是基于它设计的。 H.262,等同于 MPEG-2 第二部分,使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。 H.263,主要用于视频会议、视频电话和网络视频相关产品。在对逐行扫描的视频源进行压缩的方面,H.263 比它之前的视频编码标准在性能上有了较大的提升。尤其是在低码率端,它可以在保证一定质量的前提下大大的节约码率。 H.264,等同于 MPEG-4 第十部分,也被称为高级视频编码(Advanced Video Coding,简称 AVC),是一种视频压缩标准,一种被广泛使用的高精度视频的录制、压缩和发布格式。该标准引入了一系列新的能够大大提高压缩性能的技术,并能够同时在高码率端和低码率端大大超越以前的诸标准。 H.265,被称为高效率视频编码(High Efficiency Video Coding,简称 HEVC)是一种视频压缩标准,是 H.264 的继任者。HEVC 被认为不仅提升图像质量,同时也能达到 H.264 两倍的压缩率(等同于同样画面质量下比特率减少了 50%),可支持 4K 分辨率甚至到超高画质电视,最高分辨率可达到 8192×4320(8K 分辨率),这是目前发展的趋势。 |
|
| MPEG 系列 |
MPEG 系列由国际标准组织机构(ISO)下属的运动图象专家组(MPEG)开发。 MPEG-1 第二部分,主要使用在 VCD 上,有些在线视频也使用这种格式。该编解码器的质量大致上和原有的 VHS 录像带相当。 MPEG-2 第二部分,等同于 H.262,使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。 MPEG-4 第二部分,可以使用在网络传输、广播和媒体存储上。比起 MPEG-2 第二部分和第一版的 H.263,它的压缩性能有所提高。 MPEG-4 第十部分,等同于 H.264,是这两个编码组织合作诞生的标准。 |
|
| VP系列 |
VP8 VP9 |
|
| VC-1 |
音频编码
| 名称 | 详情 | 备注 |
| AAC | AAC,英文全称 Advanced Audio Coding,是由 Fraunhofer IIS、杜比实验室、AT&T、Sony 等公司共同开发,在 1997 年推出的基于 MPEG-2 的音频编码技术。2000 年,MPEG-4 标准出现后,AAC 重新集成了其特性,加入了 SBR 技术和 PS 技术,为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC。 AAC 比 MP3 有更高的压缩比,同样大小的音频文件,AAC 的音质更高。 | |
| MP3 | MP3,英文全称 MPEG-1 or MPEG-2 Audio Layer III,是曾经非常流行的一种数字音频编码和有损压缩格式,它被设计来大幅降低音频数据量。它是在 1991 年,由位于德国埃尔朗根的研究组织 Fraunhofer-Gesellschaft 的一组工程师发明和标准化的。MP3 的普及,曾对音乐产业造成极大的冲击与影响。 | |
| WMA | WMA,英文全称 Windows Media Audio,由微软公司开发的一种数字音频压缩格式,本身包括有损和无损压缩格式 |
视频编码
概述
-
空间冗余: 比如说将一帧图像划分成一个个 16x16 的块之后,相邻的块很多时候都有比较明显的相似性,这种叫做空间冗余.
-
时间冗余: 一个帧率为 25fps 的视频中前后两帧图像相差只有 40ms,两张图像的变化是比较小的,相似性很高,这种叫做时间冗余.
-
视觉冗余。我们的眼睛是有视觉灵敏度这个东西的。人的眼睛对于图像中高频信息的敏感度是小于低频信息的。有的时候去除图像中的一些高频信息,人眼看起来跟不去除高频信息差别不大,这种叫做视觉冗余。
-
信息熵冗余。我们一般会使用 Zip 等压缩工具去压缩文件,将文件大小减小,这个对于图像来说也是可以做的,这种冗余叫做信息熵冗余。可以理解为为了表达同样的内容,所用的表达方式是否啰嗦,比如对于一串字符串aaabbbb,如果采用3a4b来表达,就简略了一些。
-
I帧自身可以通过视频解压算法解压成一张单独的完整视频画面, 所以I帧去掉的是视频帧在空间维度上的冗余信息。 P帧需要参考其前面的一个I帧或者P帧来解码成一张完整的视频画面。 B帧则需要参考其前一个I帧或者P帧及其后面的一个P帧来生成一张完整的视频画面,所以P帧与B帧去掉的是视频帧在时间维度上的冗余信息。
-
GOP(Group of Pictures): 编码器将多张图片进行编码后产生一段一段的GOP,GOP是一组连续的的画面,由一张I帧和数张B/P帧组成, 是视频编码器和解码器存取的基本单位,它的排列顺序将会一直重复到影像结束。
I帧, P帧, B帧
- I帧: 关键帧(Intra-coded Frame) I帧, 也称为关键帧或帧内编码帧(Intra-coded Frame), I帧通常是每个GOP(MPEG所使用 的一种视频压缩技术)的第一个帧,是一个完整的图像帧,它独立于其他帧存在。I帧不依赖于其他帧的信息即可独立解码,类似于静态图像,可以视为视频序列中的一个参考点。由于I帧包含了完整的图像信息,其压缩率相对较低,但在解码时最为简单,因为它不涉及对其他帧的依赖.I帧压缩可去掉视频的空间冗余信息.
- P帧:预测帧(Predicted Frame) P帧,即前向预测编码帧(Predictive Frame),依赖于前面的I帧或P帧来生成。P帧存储的是与前一帧相比图像的变化量,因此它的压缩效果通常比I帧更好。在解码P帧时,需要先解码它所依赖的I帧或P帧,然后根据这些信息来重建当前帧的画面。P帧的引入有效减少了时间维度上的冗余,提高了视频的压缩效率。
- B帧:双向预测帧(Bidirectional Frame) B帧,或称为双向预测内插编码帧(Bidirectional Interpolated Prediction Frame),需要参考前后的I帧或P帧来生成。B帧利用前后帧的信息来预测当前帧的内容,从而实现更高的压缩比。由于B帧的解码需要前后帧的信息,它不能独立解码,必须在解码序列中结合I帧和P帧来完成。