低精度量化之路终结?哈佛MIT研究掀翻AI圈
近些年来,深度学习模型在规模和能力方面取得了显著进步,这在很大程度上归功于低精度量化。然而,一项新的研究表明,低精度量的道路可能接近尾声。
该研究由哈佛大学、斯坦福大学和麻省理工学院的研究人员共同进行,发现低精度训练会降低模型的有效参数数量。这反过来又加剧了训练后量化的影响,导致性能下降。
研究人员提出了一个“精度感知”的 scaling 定律,该定律可以预测不同精度的训练和推理模型的损失。在某些情况下,使用低精度训练大语言模型 (LLM) 可能更有效率。
该研究还统一了训练后和预训练量化的 scaling 定律,建立了一个完整的理论框架。这个单一的函数形式可以预测在不同精度下进行训练和推理时的性能下降。
研究人员在 465 次以上的预训练实验中验证了他们的预测,这些实验使用高达 1.7B 个参数,训练数据量达到 26B 个 token。他们发现,随着训练数据量的增加,更大的模型对低精度训练变得更加敏感。
该研究对人工智能领域产生了重大影响。英伟达科学家 Tim Dettmers 表示,这是“很长时间以来最重要的论文之一”。它提供强有力的证据表明,我们正在接近“量化”的极限。
AI 大牛 Andrej Karpathy 也转发了该论文,称其“发人深省”。他指出,研究表明,训练所需的 token 越多,所需的精度就越高,这将对整个领域和 GPU 的未来产生广泛影响。
该研究还引发了关于 AI 发展的更广泛问题。 Dettmers 表示,该论文表明,我们可能接近“scaling”的终结。他还认为,未来需要超过 8 位的精度才能训练许多模型。
研究人员还强调了他们的研究的局限性。他们使用的是固定模型架构和设置,并且他们只在相对较小的语言模型上拟合了 scaling 定律。他们计划在更大的规模模型上继续他们的研究。
总的来说,这项研究对人工智能领域的未来发展产生了重大影响。它表明,低精度量化的道路可能接近尾声,并引发了关于 AI 发展的更广泛问题。
原创文章,作者:睿鸿在线,如若转载,请注明出处:https://mip.orihonor.com/2024/11/19/12270.shtml