英伟达演示生成式AI，轻松玩转音乐音频创作

睿鸿在线 • 2024年11月29日上午4:35 • 国际 • 1 views

在芯片领域的巨头英伟达于当地时间11月25日展示了一款名为 Fugatto 的人工智能模型，该模型专为生成音乐和音频而设计。这款模型能够根据文本提示修改声音、创造新的声音，让音乐和音频创作变得前所未有地轻松。

Fugatto 的强大功能令人印象深刻，它可以改变录音的口音和情绪，甚至可以将钢琴演奏转换成人声演唱。具体来说，它能够分离歌曲中的人声，添加乐器，还可以将钢琴的旋律换成歌剧歌手的演唱。英伟达宣称，Fugatto 可以创造出“从未听过的声音”，例如让小号发出吠叫声，或者让萨克斯风发出猫叫声。

这项技术建立在英伟达团队在语音建模、音频编码和理解等领域的先前研究基础之上。完整的 Fugatto 模型使用了 25 亿个参数，并且在配备了 32 个英伟达 H100 Tensor Core GPU 的 NVIDIA DGX 超级计算机系统上进行训练，使用了来自开源数据集的数百万个音频样本。

在推理过程中，该模型采用了名为 ComposableART 的技术，将仅在训练期间单独看到的指令组合在一起。例如，提示词组合可以要求用法国口音讲述悲伤的故事，从而实现用户对文本指令的精细控制。

英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗表示，生成式人工智能将为音乐、电子游戏以及希望创作作品的普通人带来新的可能性。他将 Fugatto 与过去 50 年合成音频的发展进行了比较，指出如今的音乐听起来截然不同，这要归功于计算机和合成器技术的出现。

然而，Fugatto 的推出也引发了关于滥用风险的担忧。网友表示，担心这项技术可能助长错误信息的传播或侵犯版权。英伟达承认生成式人工智能模型带来的风险，并表示该公司正在讨论是否以及如何公开发布 Fugatto。卡坦扎罗强调，谨慎对待这项技术非常重要，并表示英伟达不会立即发布该模型。

值得注意的是，英伟达的 Fugatto 并不是市场上唯一的人工智能音频工具。Stability AI、OpenAI 和谷歌 DeepMind 等公司也开发了类似的技术。不过，英伟达声称 Fugatto 能够创造出全新的和闻所未闻的声音，这是其他公司尚未宣称的特性。一些人工智能初创公司甚至因其音乐创作工具而面临版权诉讼。

Fugatto 的出现标志着生成式人工智能在音乐和音频领域应用的又一飞跃。随着这项技术的发展，我们期待看到它将如何彻底改变音乐创作和音频制作的格局。

原创文章，作者：睿鸿在线，如若转载，请注明出处：https://mip.orihonor.com/2024/11/29/18063.shtml