苹果公司将ChatGPT集成到其平台后,数百万用户可以通过iPhone、iPad或Mac设备直接使用这项人工智能技术,无需再访问单独的应用程序或网站。这一整合引发了人们对ChatGPT工作原理以及大型语言模型(LLM)的广泛关注。
ChatGPT的工作原理
ChatGPT是由OpenAI开发的大型语言模型人工智能聊天机器人,与谷歌的Gemini、Anthropic的Claude或Meta AI等类似。这些聊天机器人能够理解文本并生成类似人类语言的文本。AI和机器人科学家Daniel Dugas指出,能够与电脑进行半连贯的对话仍然令人难以置信。
大型语言模型的工作原理并非像人们想象的那么复杂,其本质上是预测下一个单词,这与手机的文本建议功能类似。然而,其背后运作的机制却异常精妙。LLM通过对海量数据(包括书籍、社交媒体和互联网内容)进行训练,建立起类似人脑的单词关系映射。
大型语言模型的四个步骤
以句子“Don’t put all your eggs in one”为例,解释ChatGPT的工作流程:
第一步:标记化和编码
首先,句子会被分解成计算机可以理解的数字,即“标记ID”。例如,“Don’t put all your eggs in one”可以被分解成[91418, 3006, 722, 634, 27226, 306, 1001]。
第二步:嵌入
接下来,数字向量会根据上下文进行扩展。例如,“egg”一词有多种含义,将其数学化表示需要多维向量。在句子“Don’t put all your eggs in one”中,“egg”的向量可能为[27226],而在“I ate an egg for breakfast”中,其向量可能为[16102],这取决于上下文。
第三步:Transformer架构
数字向量会进入“Transformer架构”,这是一个由多层组成的系统,它会对向量进行进一步调整,并根据之前的训练结果决定哪些单词权重更高。例如,在句子“Don’t put all your eggs in one”中,“eggs”比“one”更重要。
第四步:输出
最后,数字向量被反向转换回单词,从而得到完整的句子:“Don’t put all your eggs in one basket”。
LLM的进步和局限性
Dugas指出,过去曾有观点认为LLM无法创作音乐或解答数学问题,但这些观点在过去五年中已被推翻。LLM技术不断进步,其能力也在不断扩展。然而,我们也需要认识到其局限性,并学习如何与这项技术协同工作,而不是被其取代。对LLM的基本理解将有助于人们更好地利用、驾驭和规范这项可能具有革命性意义的技术。
原创文章,作者:睿鸿在线,如若转载,请注明出处:https://mip.orihonor.com/2024/12/18/32966.shtml