故障排查

音频流言与 DAW 战争

关于音频质量您需要了解的三个方面

设置 - 比较两款 DAW 的音频时，年轻演奏者会面临很多陷阱，许多设置可能不同，请确保您知道它们是什么（下面进行了编号和讨论）。
位与 Hz - 对超过 550 位听众¹的样本进行研究后发现，在音乐分发中，16 位 @ 44.1 kHz（CD 标准）与 24 位 @ 192 kHz 是无法区分的。换句话说，更多的位数和更高的比特率不会改善轨道的“质量”。
技能 - 市场上到处都是营销部门，他们试图说服您设备和技术规格可以取代才能和辛勤的工作。事实并非如此，“演奏”每次都在中等水平以上。演奏包括技巧、声乐、编排、编配和混音决策。这些都受您掌控，与您使用的 DAW 软件或所拥有的插件无关。

音频质量，永恒的追求

登录专门讨论数字音频工作站 (DAW) 软件或音乐制作的任何论坛，保证您会看到用户对这种或那种 DAW 应用程序的卓越音频质量大加赞赏。拥护者会说，一个程序明显优于另一个程序。 坦率地说，这只是胡说。至少使用 32 位浮点计算（如今所有软件都是这样）的任何 DAW 应用程序在处理音频时都不会引入不必要的失真、频率响应变化，或任何其他会被清楚地听到进而影响看法的效果。这种处理音频而不引入意外、听得到的变化的能力称为透明度。从透明度的角度讲，所有 DAW 软件生而平等。

声音心理学

那么，为什么人们会“听到”DAW 质量的差异，为什么它们会持续存在，为什么您会看到“著名”制作人宣称一款 DAW 应用程序的音频质量高于所有其他 DAW 应用程序。这些人肯定知道他们在说什么。通常，答案很复杂。

首先，录音工程师和“名人”是受心理和感性限制影响的人（参阅：安慰剂效应、霍桑效应、尝鲜效应等）。当业界专业人士比较或评估设备时，（几乎？）从未在受控且经过科学验证的条件下进行。例如，在一项对照实验中，双盲聆听条件存在许多具有统计意义的强迫选择比较。除非他们这样做，否则他们对音频质量的主观意见应该被忽略（这是真的）。尽管许多业界专业人士和音乐人从事音乐混合与制作的职业生涯可能很长、很成功，但他们仍会根据主观听感做出因果归类。这就是为什么我们说进行盲听实验。

根据这一点，软件公司会将其产品免费发送给他们能够找到的尽可能多的行业和名人。这群人试用产品，一部分认为它“听起来很棒”或“比他们听过的任何软件都好”。您会在任何样本中找到这些人。这一小群人及其评价就会出现在产品的营销宣传中。不要误会我们的意思，这些人确实认为产品听起来不错，但这只是一个主观印象，很难证明该产品比市场上的其他产品好，甚至比以前的产品有所改进。

更重要的原因是，有许多设置和选项会影响任何 DAW 的现场音频和渲染音频。任何两款 DAW 都不可能不经设置就发出完全相同的声音。以下列表将帮助您了解这些设置和选项，并通过更广泛的视角带您了解真正产生差别的是什么并希望您免受营销机器的影响：

响度 - 相比之下，响亮总是比安静听起来“更好”。几乎可以肯定的是，从任意两款 DAW 渲染的同一轨道都会有几 dB 的差别，所以这是“DAW 战争”的最常见原因。对于两个其他方面相同的声音，响亮的声音似乎具有更多的低音和更清晰的高频（如母带处理工程师 Bob Katz 所述）。这是由我们耳朵的工作方式引起的，与音频本身无关。所以，是的，一款 DAW 确实听起来更好，因为它更响亮。这就是人们在互联网论坛上如此坚持的原因，因为他们确实用自己的耳朵听到了。使问题更加复杂的是，对峰值指示的随机检查可能并不能发现这些细微差异。 “是的，电平相同”。不，可能不是。一定要特别小心，1-3 dB 的电平差或许并不会“更响亮”，但听起来“更清晰”、“更深沉”或“更清脆”。根据经验法则，1 dB 大约是听众可以在混音中检测到的最低电平差（在实验室环境中为 0.2〜0.5 dB）。因此，如果您要比较各种来源的音频，它们需要在 0.5 dB 以内严格匹配。 各个方面都需要相同，尤其是用于比较的音频文件。除了基本混音决策外，还有许多原因使 FL Studio 渲染的声音可能比另一款 DAW 渲染的更安静/更响亮。
您的混音决策 - 请参阅手册中的“电平和混音”部分。这是产生魔法的地方。如果您能够很好地混音，您的音乐可能会听起来不错，无论 DAW 技术规格是什么。像任何乐器一样，混音是一种技艺，需要用多年的时间来打磨。因此，如果您的混音没有商业混音的效果好，99.99% 的概率是这个原因导致的。 DAW 不会那么糟，但您会。另外要注意，您不需要任何比 Parametric EQ、Compressor/Limiter 和基本混音器功能更复杂的工具来混音。所有这些“母带处理”插件都是有用的工具，可以节省时间，但不能替代经验和有条理的工作流。如果您想了解实际声音本身如何对您的情感产生影响，请在默认项目中加载 Harmless，然后使用预设值处理项目。有些声音尖细刺耳，有些声音则让人神魂颠倒。这只与混合在一起的声音有关（演奏），而不是 DAW 的技术规格。现在想象一下，提到对平台的情感反应时，将演奏与 DAW 的技术方面分开有多么困难。好的混音、演奏或 Patch 设置时常被错误当作产品设计或规格。
现场混音插值 - 在从根音符移调样本时，这适用于采样器通道。插件乐器可能有自己的现场与渲染插值设置。转换采样速率时（例如，对样本进行音高移动），DAW 可能需要在现有点之间增加样本数据。插值是对电平进行准确的预测，因此减少了量化误差问题，这个问题会导致走样和/或量化噪声。
渲染的音频设置 - 包括 WAV 位深设置、MP3/OGG 比特率设置和采样器插值。 WAV 位深（16、24 或 32）不会对您听到的声音产生明显影响，但是，有损格式（mp3 和 ogg）在小于约 190 kbps 的比特率下使用时肯定会引入听得见的杂音或“水下”声音。这些格式确实可以用于音乐分发，尽管在 240 kbps 或更高的比特率下听起来很棒。采样器插值与混音器部分所讨论的功能相同，但它适用于渲染的文件。如果您要听出现场声音和渲染声音之间的差异，请确保现场插值设置和渲染的插值设置匹配。
插件行为异常 - 我们的手册中有一个“插件行为异常”页面，专门介绍了此内容。使用错误的设置时，某些插件听起来可能很糟糕或发出奇怪的噪声。 FL Studio 有很多封装器设置，可为您提供与设置不佳的插件之间的最大兼容性。
插件行为异常 - 当人们从两款 DAW 渲染同一个合成器并在显微镜下比较波形时，这会使许多人崩溃。合成器通常具有一些随机化和/或自由运行的振荡器（这意味着波形的相位将随音符开始时间而变化），因为大多数合成器的目的是不产生两次“完全相同”的波形。确保禁用任何随机化设置并使用相同的调制设置发送相同力度的相同音符。更好的策略是将 .wav 文件用作测试源，这样您就知道使用任何一款 DAW 开始都一样。
营销影响了您 - 是的。数字音频只是数字流。计算机以一种易于理解和可预测的方式累加数字，如果没有，那么就会不断有卫星从天而降，落在我们身上。我们这里说的是基础数学（加法、减法和除法），没有魔法，没有有些 DAW 制造商知道而其他制造商不知道的秘密。抖动和插值很好理解，大多数 DAW 软件中都有很多选项可以让您控制它们。但是请理解，专业和消费类音频设备供应商具有强烈的既得利益，让您相信您需要升级到最新最好的装备/格式，这就是他们赚钱的方式，根据规格销售装备。自从音乐制作软件平台转移到 32 位浮点内部处理后，音频质量就不再有很大区别了。使用寿命营销的影响历来如此强大，让我们考虑与位深和采样速率相关的三个方面：
- DAW 位深 - 用过计算器的人都知道，在执行数学运算时，只有那么多小数位，因此会有舍入误差，并且这些误差会累积在最低有效小数位。处理数字音频时也会发生同样的事情。如果您有代表数据的 16 位数字，那么这些舍入误差会混入可听范围，尤其是在非常安静的乐章中。 32 位浮点格式允许对音频执行数学运算，而不会听到舍入误差。在您提问之前，我先说我的意见，我认为 64 位并不更好。是的，一些特殊情况混合在一起可产生 32 位浮点格式下听得见的非自然信号，但是 64 位浮点也是如此，这些情况并不值得视为“质量”感知的驱动因素。
  值得注意的是，使用 32 位处理时，采用 IEEE 浮点标准双扩展精度格式，可以在需要时实现 80 位内部精度。从技术上讲，64 位处理则低于该精度，但是对于音频 DSP，64 位和 80 位音频之间的区别无关紧要。如果您听到 DAW 软件之间存在一些差异，那是因为设置、效果或选项（下面进行了编号和讨论），而不是因为“音频引擎”的某些内在质量。
  注：对于以 16 位和 24 位存储的长衰减声音，如果将音量调到最大，您可能会听到量化噪声的差异。但这不是我们听音乐的方式。当正常音乐再次开始时，您会吹嘘您的扬声器和听力。设置为正常甚至大声聆听时，这些噪声在家庭环境中是听不到的。当您浏览互联网论坛上的内容时，您会看到许多人将“调大音量”的聆听推断为证据，证明 16 位和 24 位音频文件之间的差异会影响聆听体验。研究¹表明并不会。
- 电子设备 - 当前在市售“专业”音频设备中可以实现的最佳模数转换电路最多相当于 20 位。 120 dB 的动态范围。是的，所有这些 24 位录音一旦被您购买的最好转换器和室温电子设备弄得支离破碎，它们实际上只会提供 18 至 20 位的精度。这意味着即使是较低的 24 位文件也超过了我们电子设备重现文件的能力，电子元件中固有的噪声会将剩余的分辨率淹没在噪声的海洋中。另一方面，采样速率几乎可以达到您想要的值（尽管某些放大器在馈入超声信号时表现不佳，所以这也可能会成为一个问题），但是如我们在上面的研究中所见，超过 44.1 kHz 是一种浪费。是时候该停止担心 DAW 的技术规格作为“质量”驱动因素了，而应将精力集中在此列表中更重要的其他方面，例如混音和演奏。
- 最薄弱的环节 - 人类的听力。 24 位 192 kHz wav 文件的声音肯定比 CD 上使用的 16 位 44.1 kHz wav 文件的声音好吗？正如我们前面提到的那样，迄今为止进行的最大、最好的研究（请参阅下面的参考文献）¹表明，人并不能听出“高端”音频格式 ~24 位 @ 192 kHz 和 16 位 44.1 kHz（CD 标准）之间的区别。可以点击以下链接，阅读讨论该研究的文章，内容通俗易懂：The Emperor's New Sampling Rate。
  他们的发现，在包括专业人士、一般人群和年轻听众（因其令人称道的高频听力）的 554 位听众样本中，正确识别出更高质量音频的听众为 276 人，占 49.8%。如果您掷 554 次硬币或要求未经训练的猴子来完成任务，也会获得相同的数字。没有任何小组胜出。总之，在音乐分发中，16 位 41.1 kHz 的声音与 ~24 位 @ 192 kHz 是无法区分的。是的，32 位对于 DAW 应用程序中的音频处理很重要，但是一旦需要将音频转换为对分发和人类消费有用的格式，您就无法对 CD 标准进行有意义的改进。
您的音频设备或操作系统混音器和媒体播放器 - 确保您在音频设备或 Windows 设置中没有任何 EAX、压缩器或均衡器设置等。需要在这里深入挖掘一下，因为有时它们很好地隐藏在“高级”选项选项卡等位置。我们有时看到的一个陷阱是，人们比较使用不同音频设备驱动程序的两款 DAW。例如，一款 DAW 可能使用 ASIO 驱动程序，而另一款使用 Windows DirectSound 驱动程序。与驱动程序相关的设置可能会对您听到的声音产生巨大影响。
您影响了自己 - 如果您在任何给定时间知道正在聆听的内容的来源，则无法对 A 和 B 这两个来源的音频进行无偏比较。 您不能把它忘掉，认知心理学家家在 100 多年前认识到这一点，并开发出很多有用的方法来解决它。尤其是具有客观反应指标的“盲听”实验。客观反应指标是有正确或错误答案的指标。例如，是样本 A 还是样本 B（不是哪个听起来更好，那是主观的）。让一个朋友在随机顺序对中播放这两个音源。您的任务是简单地识别音源 A 和 B，仅此而已。如果您可以从 10 个随机顺序对的比较中成功区分音源 A 和 B 至少 8 次，那么您也许可以听到一些差异。如果没有，您可能只是在猜测。这可能是任何音频工程师都可以进行的最具启发性的测试之一，您将学到很多有关感知以及以这种方式听到声音的能力。您真的认为您可以相信自己的耳朵，而我们不知道吗？观看此视频。我们的敏感度总是比想象中差得多，而感知远比看起来要复杂。如果您仍然确信自己的观点正确无误，那么您可以做一个练习：
实验 - 将相同的 ~5 秒的项目渲染到 320 kbps mp3 文件和 16 位 44.1 kHz wav（CD 格式）中，然后进行 30 次 AB 盲法比较。这意味着您不知道您的助手正在给您播放 mp3 还是 wav 文件。在实验完成前，您还应该避免与他们有目光交流以及收到有关您的状况的反馈。助手应该写下以随机顺序给您播放（wav 与 mp3 或 mp3 与 wav）的 30 次比较，他们应该确保您以混合顺序收到 15 次 mp3 与 wav 和 15 次 wav 与 mp3 试验，总共 30 次。如果您需要休息，则无需一次全部完成，但不要与助手交流您的表现。您的任务只是识别 wav 文件（听起来更好的那一个！）。为了高度自信地让一位科学家信服您能够将它们区分开，您需要在 30 次比较中至少识别出 20 次 wav 文件。我们未经训练的猴子在 24 位 192 kHz 实验中将正确识别出 15 次 wav 文件。当然，由于 mp3 不如 CD 格式，您可以正确识别出 20 次，或者至少可以击败未经训练的猴子？

结论

首先，所有主要 DAW 应用程序都可以处理音频，而不会引入不必要的失真、频率响应变化或任何其他会让人失去兴趣的“清晰可听”的不必要效果。如果您确实听到了明显的不同，请查找明显的原因（上面进行了编号）。

其次，我们并不是说高质量模拟装备、麦克风、麦克风前置放大器甚至 24 位录制不重要或没有关系。这些东西在制作阶段肯定占有一席之地。我们现在说的是，DAW 对处理此信息和大于 16 位 @ 44.1kHz 的数字分发格式的影响在音乐制作人的心目中被过分夸大。最重要的是混音技能和演奏。这两项“基本要素”来源于人类，而非技术。

在上世纪九十年代后期的某个时候，我们实现了超越，人们对“保真度”的技术改进不再对所制作音乐的听觉质量产生任何有意义的影响。此外，随着 2000 年代的响度之争以及广泛采用低比特率 mp3 作为音乐分发标准，很明显，音频质量已经倒退了一段时间，但人们仍在欣赏音乐。总而言之，我们希望为您提供摄影师 Vernon Trent 的一句名言 -

“业余爱好者关注设备，专业人士在乎金钱，高手注重光线。我只是拍照”

参考文献

1. Meyer, E. Brad and David R. Moran. Audibility of a CD-Standard A/D/A Loop Inserted into a High-Resolution Audio Playback, Journal of the Audio Engineering Society, Sept. 2007, pp. 775-779. 该参考文献在文章 The Emperor's New Sampling Rate 中进行了讨论。

延伸阅读和视频

如果您拥有 FL Studio，并且可以访问 Image-Line 论坛，我们鼓励您查看在此音频质量/音频引擎主题中发布的链接。每个平台都会受到攻击：“平台 ABC 的声音优于 XYZ！” 如果确实有一个平台在听觉上优于其他平台，那么您不会看到这样一个广泛分发的平台被有针对性地认为比其他平台差。还要注意，对手有多大程度确信存在问题，以及他们能听到的声音有多清晰。他们之所以确信，是因为他们确实听到了，但是他们听到的是上面列表中的内容。
The Science of Sample Rates (When Higher Is Better - And When It Isn't) - 作者 Justin Coletti
24/192 音乐下载及其为何没有意义 - Xiph 开发了包括 Ogg Vorbis（一种 mp3 替代选项）的开源多媒体编解码器。
Digital Show & Tell 视频 - Xiph 的 Monty 带着深思熟虑和详尽说明回来了，他使用现代数字分析和老式模拟台架设备对真实音频设备上的采样、量化、位深和抖动进行了实时演示。
高端 A/D 和 D/A 转换器技术制造商 Lavry Engineering 根据采样理论解释为什么 44.1 kHz 足够而 192 kHz 实际上很差 (PDF)。
另一个很棒的主题是“Gearslutz”上的这个主题：Paul Frindle（设备设计师）通过云端破解音频流言。 Paul 在专业音频和音乐行业拥有 35 年的经验。他曾在牛津和巴黎担任工作室工程师，并在 SSL 担任设计工程师，负责 E 和 G 系列模拟调音台、新兴的可分配调音台和新生的数字音频产品。作为已成为 Sony Oxford 的原始团队的成员之一，他负责 Sony OXF-R3 调音台的许多革命性方面。最近，他负责 Oxford 插件的产品设计和质量保证。离开 Sony Oxford 后，他与其他人联合创立了 Pro Audio DSP，这家公司开发新颖的声音处理应用程序来解决他在职业生涯中发现的音频制作链中的许多问题。
最后，请观看 YouTube 上的 Image-Line 音频质量视频播放列表。

Audio Myths Workshop，Audio Engineering Society 2009

当您有一个小时的空闲时间时，这里有一个值得观看的视频，Ethan 和搭档介绍了上面讨论的许多问题，包括音频、响度与质量的安慰剂效应、“欺诈”设备、抖动、昂贵与便宜的音频设备等…

Ethan Winer 的 YouTube 视频，Audio Myths Workshop AES 2009。您可以在其网站上详细了解 AES。