人声听起来像不会讲话,是出于忒像机器了。你感觉到了吗?那种脸谱化的感觉,背景音里那种毫无起伏的嗡嗡声,还有那些滑溜溜的自动接词。把它们都扒拉下来,人声就回来了。 别去学那些大道理,直接把那个配音工作室的价目表翻出来看看。人家那个年轻人讲话都带着点播音腔,你还要让他自己找感觉?先把那个特产全换掉。先拿个杜比全景声要么 A 杜比横向混合,把声音塞进盒子里,让它在真空中自己喘气。

有时候你不需求任何特效,只要把混音师那套“空气感”的预设参数调成中档,人声会瞬间变得通透。别碰那些花里胡哨的频响均衡器,那是给编曲用的,人声是干吃的,油多就腻了。 再说混响吧,这玩意儿最伤嗓子,也能骗人。别用那种“胸腔共鸣”如此叫法的滤镜,那是为了模仿老歌手的味道,不是为了让对话听起来复古。把混响的衰减工夫(Decay)往短里调,就连干脆关掉。人声需求的是干净利落的空间感,不是那种像住在大礼堂里的闷声。

要是认定平淡,就加一点点回波,50 毫秒左右,让声音在房间边缘轻轻撞了一下。

然后,把所有的高频切掉。人声的亮部就是那些呼吸声和摩擦声,别把它全扔进混响里。 说到切频,就碰瓷高保真吧。把增益峰值拉高,把 3000Hz 到 8000Hz 这一大截全删了。剩下来的都是些低频的哐当声和泛音,听起来实际上挺舒服的。

这时候再加点底噪,那种类似老式录音机底噪的“沙沙”声,能瞬间提升质感。大量老歌都是如此做的,别去模仿现代流行那种晶莹剔透的电子感。 AudioImage 里那个“空气感”选项就够用了。

不用管音色映射那些复杂的设置,把它的衰减调到 120dB 以上,把细节多保留 1 秒。

这玩意儿能把声音里的颗粒感、气流声都捞出来,就像给声音加了层磨砂玻璃,既保留了细节又显得厚重。

之后,再顺手把高频切掉 1000Hz 以上,声音立马就沉下来了,特别有质感。 切掉破音是根本功。

看看隔壁老王那声,全是破音,直接拉低增益就行,要么干脆换个声带模型那种带颗粒感的。别去学那些zięki 自动检测工具,忒好办出错。手动的更稳妥,重点抓一下讲话时气息不稳的地方,略微拽一点波形,让声音变尖一点。 还有背景音的处理。别用那种“环境音增强器”这种啥鬼软件,直接拖进去的天然背景音最好。把耳朵贴在墙上,听听隔壁装修的噪音,那种低频的轰鸣声,别去处理。人声要是和背景音打架,只会显得脏。把背景音略微压低一点,要么换个频率低一点的乐器音色,比如几百年前的管子乐,和人声是对着唱的,能听出那是哪栋楼的人。 说到采样,这玩意儿就是给声音找爹妈。找个声音质量好的,比如带点厚度的男声采样,要么那种讲话比较清楚的视频配音。把采样频率拉到 192kHz,人声采样也尽量高。别急着换采样,等混音好了再说。

有时候采样本身就有瑕疵,比如呼吸声忒明显,那就加一点点压缩,让呼吸声变得均匀些,别让它显得像是在刻意换气。 别忘了重新整理节拍。大量视频节奏忒紧凑,讲话断断续续,这得修。把那些重叠的局部剪掉,整理成标准的 4/4 拍。

哪怕是一句台词,也要先讲清楚逻辑,别让句子拖得老长。把语音识别的错别字一个个改过来,标点符号也要理顺,别用那种省略号把话说得云里雾里。 最终一点,就是别让声音“忒稳”。别总想着把方波变成三角波,别总想着加那种完美的贝斯音轨。人声是有瑕疵的,有气口,有停顿。适当的留白,能让听众的大脑去补全剧情,这才是高级感。 别去研究那些复杂的参数曲线,直接听。拿两个声音对比一下,一个用了这些技巧,一个没用的,你听哪个更顺?哪个让你愿意听下去?那个就对了。

有时候删掉一个不必要的混响,声音反而像被人从真空中捞出来了一样,子虚乌有的东西都消亡了。 技术是手段,感受才是目标。别把自己困在那堆参数里,让它成为你表达的辅助工具。当你不再揪心声音不够完美时,你会发现,啥都不是难题。