【chatGPT】什么是 ChatGPT 以及如何使用它?
这是一项革命性的技术,因为它经过训练可以了解人类提出问题时的意思。
许多用户对它提供人类质量响应的能力感到敬畏,激发了一种感觉,即它最终可能有能力破坏人类与计算机的交互方式并改变信息的检索方式。
什么是聊天 GPT?
ChatGPT是OpenAI基于GPT-3.5开发的大型语言模型聊天机器人。它具有以会话对话形式进行交互并提供令人惊讶的人性化响应的非凡能力。
大型语言模型执行预测一系列单词中的下一个单词的任务。
Reinforcement Learning with Human Feedback (RLHF) 是一个额外的训练层,它使用人类反馈来帮助 ChatGPT 学习遵循指示并生成人类满意的响应的能力。
谁建立了 ChatGPT?
ChatGPT 由总部位于旧金山的人工智能公司 OpenAI 创建。OpenAI Inc. 是营利性 OpenAI LP 的非营利性母公司。
OpenAI 以其著名的 DALL·E 而闻名,这是一种深度学习模型,可根据称为提示的文本指令生成图像。
首席执行官是 Sam Altman,他之前是 Y Combinator 的总裁。
微软是10 亿美元的合作伙伴和投资者。他们共同开发了Azure AI 平台。
大型语言模型
ChatGPT 是一种大型语言模型 (LLM)。大型语言模型 (LLM) 使用大量数据进行训练,以准确预测句子中接下来出现的单词。
人们发现,增加数据量可以提高语言模型做更多事情的能力。
根据斯坦福大学的说法:
“GPT-3 有 1750 亿个参数,并接受了 570 GB 文本的训练。相比之下,其前身 GPT-2 的参数量为 15 亿个,小了 100 多倍。
这种规模的增加极大地改变了模型的行为——GPT-3 能够执行它没有明确接受过训练的任务,比如将句子从英语翻译成法语,几乎没有训练示例。
这种行为在 GPT-2 中几乎不存在。此外,对于某些任务,GPT-3 优于经过明确训练以解决这些任务的模型,尽管在其他任务中它不尽如人意。”
LLM 预测一个句子中一系列单词中的下一个单词和下一个句子——有点像自动完成,但在一个令人费解的范围内。
这种能力使他们能够编写段落和整页内容。
但法学硕士的局限性在于他们并不总是能准确理解人类的需求。
这就是 ChatGPT 通过上述人类反馈强化学习 (RLHF) 培训改进现有技术的地方。
ChatGPT 是如何训练的?
GPT-3.5 接受了来自互联网的大量代码和信息数据的训练,包括 Reddit 讨论等来源,以帮助 ChatGPT 学习对话并获得人性化的回应方式。
ChatGPT 还使用人类反馈(一种称为人类反馈强化学习的技术)进行训练,以便 AI 了解人类在提出问题时的期望。以这种方式训练 LLM 是革命性的,因为它不仅仅是训练 LLM 预测下一个单词。
2022 年 3 月的一篇题为“训练语言模型以遵循人类反馈的指令”的研究论文 解释了为什么这是一种突破性的方法:
“这项工作的动机是我们的目标是通过训练大型语言模型去做一组给定的人类希望他们做的事情来增加大型语言模型的积极影响。
默认情况下,语言模型会优化下一个单词预测目标,这只是我们希望这些模型执行的操作的代理。
我们的结果表明,我们的技术有望使语言模型更有用、更真实、更无害。
使语言模型更大并不能从本质上使它们更好地遵循用户的意图。
例如,大型语言模型可能会生成不真实的、有毒的或对用户没有帮助的输出。
换句话说,这些模型与他们的用户不一致。