英伟达演示生成式AI,轻松玩转音乐音频创作

英伟达演示生成式AI,轻松玩转音乐音频创作

在芯片领域的巨头英伟达于当地时间11月25日展示了一款名为 Fugatto 的人工智能模型,该模型专为生成音乐和音频而设计。这款模型能够根据文本提示修改声音、创造新的声音,让音乐和音频创作变得前所未有地轻松。

Fugatto 的强大功能令人印象深刻,它可以改变录音的口音和情绪,甚至可以将钢琴演奏转换成人声演唱。具体来说,它能够分离歌曲中的人声,添加乐器,还可以将钢琴的旋律换成歌剧歌手的演唱。英伟达宣称,Fugatto 可以创造出“从未听过的声音”,例如让小号发出吠叫声,或者让萨克斯风发出猫叫声。

这项技术建立在英伟达团队在语音建模、音频编码和理解等领域的先前研究基础之上。完整的 Fugatto 模型使用了 25 亿个参数,并且在配备了 32 个英伟达 H100 Tensor Core GPU 的 NVIDIA DGX 超级计算机系统上进行训练,使用了来自开源数据集的数百万个音频样本。

在推理过程中,该模型采用了名为 ComposableART 的技术,将仅在训练期间单独看到的指令组合在一起。例如,提示词组合可以要求用法国口音讲述悲伤的故事,从而实现用户对文本指令的精细控制。

英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗表示,生成式人工智能将为音乐、电子游戏以及希望创作作品的普通人带来新的可能性。他将 Fugatto 与过去 50 年合成音频的发展进行了比较,指出如今的音乐听起来截然不同,这要归功于计算机和合成器技术的出现。

然而,Fugatto 的推出也引发了关于滥用风险的担忧。网友表示,担心这项技术可能助长错误信息的传播或侵犯版权。英伟达承认生成式人工智能模型带来的风险,并表示该公司正在讨论是否以及如何公开发布 Fugatto。卡坦扎罗强调,谨慎对待这项技术非常重要,并表示英伟达不会立即发布该模型。

值得注意的是,英伟达的 Fugatto 并不是市场上唯一的人工智能音频工具。Stability AI、OpenAI 和谷歌 DeepMind 等公司也开发了类似的技术。不过,英伟达声称 Fugatto 能够创造出全新的和闻所未闻的声音,这是其他公司尚未宣称的特性。一些人工智能初创公司甚至因其音乐创作工具而面临版权诉讼。

Fugatto 的出现标志着生成式人工智能在音乐和音频领域应用的又一飞跃。随着这项技术的发展,我们期待看到它将如何彻底改变音乐创作和音频制作的格局。

原创文章,作者:睿鸿在线,如若转载,请注明出处:https://mip.orihonor.com/2024/11/29/18063.shtml

Like (0)
睿鸿在线睿鸿在线
Previous 2024年11月29日 上午4:32
Next 2024年11月29日 上午4:41

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注