第一节 数字音频信息处理技术
音频是人类最熟悉的传递信息的手段和工具,也是新媒体信息构成的重要部分。
数字音频信号在存储及传输方面具有模拟音频信号不可比拟的优势,具体表现为抗噪声性能优异、音频动态范围得到增强、多次存储记录无信号衰减等。当然,为使听众接收到高质量的数字音频信号,必须对话筒产生的音频电信号进行数字化即A/D转换、压缩编码、信道编码、调制解调、多路复用等一系列的信息处理。
一、声道和音轨的概念
1.声道
(1)单声道
单声道是比较原始的声音形式,早期的广播采用得比较普遍。
钥匙孔效应在单声道系统上体现得最为明显。设想一个这样的场景:去听一场音乐会,但并不是坐在音乐厅中,而是站在音乐厅门外。这时,音乐厅中乐器的直达声、反射声、混响声等都是通过门上的钥匙孔到达耳朵,因此不可能感受到音乐厅内的空间感和临场感。我们听到的声音也是贫乏无味、单薄肤浅的,声音的清晰度不足,层次感不强,这就是单声道系统重播声音的效果。
单声道录音时使用一只传声器(话筒),输出一路声音信号,放音时使用一路放大器和一只扬声器(音箱),所以重放出来的声音是一个点声源。无论扬声器的音色多么明艳动人,多么丰润饱满,给人的感觉是所有声音都是从一个点发出的。这些声音以及它们在实际环境中的混响声、反射声等都来自一个方向,即扬声器所处的位置,因而只能重现声音的强度和音调,而不能再现声音的空间感,更不能精确地再现不同声源在不同位置上的方位感。
当通过两个扬声器回放单声道信息时,左右两个音箱发出的声音完全一样,听者可以明显感觉到声音是从两个音箱的中间传递到耳朵里的,单调、没有空间感。
(2)立体声
立体声技术是利用听觉的方位感,在放音时重现各种声源的方向及相对位置的技术。
立体声技术的生理基础是:当某一声源至两只耳朵的距离不同时,此时两只耳朵虽然听到的是同一声波,但却存在着时间差(相位差)和强度差(声级差),它们成为听觉系统判断低频声源方向的重要客观依据。对于频率较高的声音,还要考虑声波的绕射性能,由于头部和耳郭对声波传播的遮盖阻挡影响,也会在两耳间产生声强差和音色差。总之,由于到达两耳处的声波状态的不同,造成了听觉的方位感和深度感。即“双耳效应”。
正是通过对这种声像定位原理的逆向运用(不同方向上的声源会使两耳处产生不同的,但是特定的声波状态,从而使人能由此判断声源的方向位置),人们发明了最早的也是最简单的双声道立体声系统,即在录制声音时,在不同的位置用两只话筒(或一只立体声话筒)录制两路声音信号,重放时则使用两路独立的放大器和两个扬声器,从而使听者可以较准确地判断出不同音源的准确位置。
双声道立体声系统是最基本的能给人的双耳造成立体声像效果的系统。声音在录制过程中被分配为两个独立声道,从而达到很好的声音定位效果。
(3)四声道环绕
尽管双声道立体声的音质和声场效果大大好于单声道,但在家庭影院应用方面仍有很大的局限性。双声道立体声系统只能再现一个二维平面的空间感,即整个声场是平平地摆在我们面前,并不能让我们有置身其中的现场感。当然,由于在音乐会现场,观众原本就是坐在台下的,而乐队演奏人员位于舞台之上,立体声所能再现的这种简单的声场方位感与现场音乐会的方位感是基本符合的,因而它仍能满足欣赏需求。但是,在欣赏影片时,整体声场全方位的三维空间感无疑可以给观众带来一种鲜活的、置身于其中的临场感,因此,多声道技术开始发展起来。
四声道立体声,俗称环绕立体声。在立体声电影中还采用五声道、七声道。一般来说,声道数量越多,现场感越强。
在四声道立体声系统中,将四个话筒分别放置在声源的前左、前右、后左、后右四个方向上录制四路声音信号,然后通过四个通道传输,分别送到置于视听者前左、前右、后左、后右的四个扬声器上,以重现环绕声音响效果。同时还可以增加一个超低音声道,主要负责传送低音信息(<;120Hz),其目的是补充其他声道的低音内容,使一些包含爆炸、撞击等低音的场景声效更好(即4.1声道)。就整体效果而言,四声道系统可以营造一个趋于真实的声场,从而使听众获得身临其境的听觉体验。四声道技术已经广泛应用。
但是,这种方案传输通道过多,基本没有应用在电视广播系统中。目前多数大屏幕彩色电视机的环绕声处理电路,主要采用了模拟环绕声技术,即采用特定的环绕声处理电路,对立体声的两路信号进行加工处理,根据人耳听觉生理特点,利用专用的环绕声处理器进行延迟、移相等处理,模拟出一个环绕声场,并用多个扬声器进行放音,从而营造出丰富的三维空间音响效果,使视听者产生极强的临场感。
(4)5.1和7.1声道
5.1声道已广泛运用于各类传统影院和家庭影院中,一些比较知名的音频压缩格式,如杜比AC-3、DTS等都是以5.1声音系统为技术蓝本的。其实5.1声音系统来源于4.1环绕,不同之处在于它增加了一个中置单元(前中置)。
7.1系统在5.1的基础上又增加了中左和中右两个发音点,以求达到更加完美的境界。l992年CCIR(ITU-R)以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准,即CCIR Recommendation 775,其中主要约定了5.1声道形式及7.1声道形式。
目前,双声道的Hi-Fi系统(高保真系统)与多声道的AV系统(家庭影院系统)是音响器材市场的两大阵营。
2.音轨
音轨也是音频处理中的常用术语,声道主要是用多个通道进行某个声音的记录,而音轨主要是指不同的声音分别记录,如歌手在录音棚里录音,如果伴奏和歌声录在一起,不管哪一方出错都需要全部重来,而如果乐队单独演奏,并用录音设备录在单独一条音轨上,然后让歌手带上耳机,听着乐队的伴奏录音演唱,录在另一条和伴奏音轨平行的音轨上,就会避免这一问题。这就是双音轨技术,类似于图像处理中层的概念。
卡拉OK的歌曲也是把歌声和伴奏录在不同的音轨上,用户可以单独调整。
在音频处理软件中可以看到的一条一条的平行“轨道”。每条音轨分别定义了该条音轨的属性,如音轨的音色、音色库、通道数、输入/输出端口、音量等,用户可以单独编辑某音轨信息而不影响其他音轨的信息。
二、音频数字化
话筒将声音的机械振动转换为模拟电信号,用连续变化的电压幅度表示声音的强弱,而在数字音频中,数字声音是一个离散的二进制数据序列。模拟音频要转换成数字信号,需要经过采样、量化和编码等步骤。
1.采样
采样,即对模拟信号每隔一个固定的时间取一个样本值。
采样频率是一秒钟内对模拟声波信号采样的次数,单位Hz(赫兹)。奈奎斯特(Harry Nyquist)采样定理对采样频率做了明确规定:采样频率必须高于输入信号最高频率的两倍,才能根据采样信号重构原始信号。采样频率越高,声音保真度越好,声音的还原越真实自然,但产生的数据量也就越大,占用存储空间越多。
按照对声音质量的不同要求,目前常用的采样频率有22.05KHz、44.1KHz、48KHz三个等级,22.05KHz能达到FM广播的声音品质,44.1KHz则是理论上的CD音质界限,48KHz则更加精确一些,高保真效果。数字广播节目可以根据不同音质的播出需要进行选择。
2.量化编码
在实际过程中量化和编码是同时进行的,即把各个时刻的采样电压值用二进制数来表示。
量化精度(量化等级)指表示每个采样值的二进制数据的位数,是影响重放声音质量的重要因素,位数越多,还原的音质越细腻。由于人耳对声音幅度比较敏感,所以音频信号量化级常取l6bit,甚至32bit。如CD唱片的规范是:44.1KHz采样频率、16bit量化等级、立体声,能完全重现原声音效果。
3.数字化波形声音与MIDI音乐
采样、量化、编码后的数字音频信号被称为脉冲编码调制(PCM)信号,又称数字化波形声音。除了PCM信号,数字音频还包括数字音乐。
MIDI(Musical Instrument Digital Interface),即乐器数字接口,是数字音乐的一个国际标准。通过这一接口,数字式电子乐器键盘的弹奏信息可以被送到计算机内保存为MIDI音乐文件,为计算机处理音乐创造了有利条件。MIDI文件里的数据不是声波数字化的那种数据,而是人工创作的纯粹符号化的音乐:将电子乐器键盘的弹奏信息记录下来,包括键名、通道号、力度、持续时间等,这些信息被称为MIDI消息,是乐谱的一种数字式描述。当需要播放时,只需从相应的MIDI文件中读出MIDI消息,使用合成器生成所需要的乐器声音波形,经放大后由扬声器输出。
三、数字音频压缩
声音信号数字化后,信息量也很大,以CD为例,采样频率为44.lKHz,量化等级为16位,则l分钟的立体声音频信号需占约l0M字节的存储容量[字节数/秒=(采样频率×采样数据位数×声道数)/8]。为了更好地存储和在相对较窄的带宽上更有效地传输尽可能多的数字信号,必须进行压缩,减少数字信号中的冗余部分。
音频信号的压缩编码主要利用了人耳的听觉特性,即人耳对信号频率、时间等具有有限的分辨能力:(1)听觉的掩蔽效应。即一个声音的存在可以掩蔽另一个声音的存在,掩蔽效应是一个较为复杂的心理和生理现象,包括人耳的频域掩蔽效应和时域掩蔽效应。(2)人耳对声音的方向特性。对于2KHz以上的高频声音信号,人耳很难判断其方向。因此压缩原则是:凡是人耳感觉不到的成分不编码、不传送;对人耳感觉到的部分,允许有较大的量化失真,并使其处于可听阈以下。
由于数字音频压缩技术具有广阔的应用范围和良好的市场前景,因而一些著名的研究机构和大公司都积极开发自己的专利技术和产品,音频压缩技术的标准化工作就显得十分重要。
1.电话质量的音频压缩编码技术标准
电话质量语音信号频率规定在300Hz~3.4KHz,采用标准的脉冲编码调制PCM信号。当采样频率为8KHz、8bit量化时,所得数据速率为64Kb/s。1972年,CCITT制定了PCM标准C.711,速率为64Kb/s,采用非线性量化,其质量相当于12bit线性量化。
1984年,CCITT公布了自适应差分脉冲编码调制ADPCM标准G.721,速率为32Kb/s,压缩比较高,又能保持一定的信号质量。因此,ADPCM对中等电话质量要求的信号能进行高效编码,而且可以在调幅广播和交互式激光唱盘音频信号压缩中应用。
为了适应低速率语音通信的要求,必须采用参数编码或混合编码技术,如线性预测编码LPC,矢量量化VQ,以及其他的综合分析技术。1992年,CCITT制定了基于短时延码本激励线性预测编码LD-CELP的标准G.728,速率16Kb/s,其质量与32Kb/s的G.721标准基本相当。
1988年,欧洲数字移动特别工作组制定了基于长时延线性预测规则码本激励RPE-LTP的标准GSM,速率为13Kb/s。1989年,美国采用矢量和激励线性预测技术VSELP,制定了数字移动通信语音标准CTIA,速率为8Kb/s。为了适应保密通信的要求,美国国家安全局NSA分别于1982年和1989年制定了基于LPC、速率为2.4Kb/s和基于CELP、速率为4.8Kb/s的编码方案。
2.调幅广播质量的音频压缩编码技术标准
调幅广播质量音频信号的频率在50Hz~7KHz范围。CCITT在1988年制定了G.722标准,采用16KHz采样,14bit量化,信号数据速率为224Kb/s,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224Kb/s可以被压缩成64Kb/s。因此,利用G.722标准可以在窄带综合业务数字网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。