OpenAI推出“强化微调”计划，降低专家大模型门槛

睿鸿在线 • 2024年12月11日上午1:05 • 财经 • 0 views

OpenAI推出“强化微调”计划，降低专家大模型门槛

导语：

12月7日，OpenAI在连续12天发布会的第二场直播中，发布了备受瞩目的“强化微调”计划。该计划旨在通过降低专家大模型的使用门槛，让更多研究人员、企业和行业专家能够打造定制化的人工智能解决方案。

“强化微调”简介：

“强化微调”是一种全新的模型定制方法，它将预训练好的通用大模型，进一步训练在特定领域的小规模数据集上，使模型能够适应特定任务。简单来说，就是让一个已经掌握大量知识的大模型，针对特定领域进行重点训练，提高其在该领域的性能。

提升大模型能力：

OpenAI高管表示，强化微调可以将大型语言模型的能力从“高中水平”提升至“博士级专家”水平，非常适合高校、研究人员和企业打造独特的AI解决方案。例如，OpenAI正在与汤森路透合作，为该公司打造专属于法律专业的模型。

行业专家兴奋不已：

没有参与本次直播的OpenAI CEO Sam Altman在社交媒体上表示，“效果一级棒，是我2024年最大的惊喜，期待看到人们构建什么！”一位AI大模型应用企业的创始人告诉36氪，“强化微调让行业专家大模型的实现变得容易了。这是一项和普通用户关联不大，但对专业领域工作者很有价值的新方案。”

案例展示：

直播现场，OpenAI展示了强化微调在罕见遗传病研究中的应用。通过与伯克利实验室和德国Charité医院的研究人员合作，OpenAI使用强化微调训练了GPT-o1 Mini模型。该模型学会了有效推理罕见疾病的成因，性能超越了更大的GPT-o1模型，展示了其在诊断和理解复杂病情方面的潜力。

与传统微调的区别：

值得一提的是，强化微调与传统的微调方式有着显著差异。传统微调只是简单地让模型“记住答案”，而强化微调则通过训练模型在特定领域中学会推理，找到正确答案。具体来说，强化微调使用了两个不同数据集合：微调数据集和测试数据集合。模型先在微调数据集上进行训练，然后在测试数据集合上验证，反复进行自我推理练习和验证，最终达到很高的水平。因此，强化微调可以在数据量有限的情况下（有时仅需几十个样本）实现显著的性能提升。

计划时间线：

目前，强化微调计划仍处于研究预览阶段，OpenAI计划在2025年全面推出。在此之前，OpenAI将邀请研究机构、大学以及企业参与研究计划，进一步优化模型性能。

影响：

OpenAI的“强化微调”计划有望对人工智能领域产生深远影响。它将降低专家大模型的使用门槛，让更多研究人员、企业和行业专家能够利用AI技术解决复杂难题，加快科学研究、工业创新和社会进步的步伐。

原创文章，作者：睿鸿在线，如若转载，请注明出处：https://mip.orihonor.com/2024/12/11/25505.shtml