GPT-4(Generative Pre-trained Transformer 4)是 OpenAI 发布的最新 GPT 系列模型。它是一个大规模的多模态模型,可以接受图像和文本输入,产生文本输出。输出任务依旧是一个自回归的单词预测任务,这与外界之前的预期略微不同(预期中 GPT-4 多模态会增加语音、图像、视频、文本多模态输入,输出可能也不局限于文字)。
一、GPT系列模型的整体情况
二、GPT-4 功能亮点
1、突破纯文字的模态,增加了图像模态的输入,具有强大的图像理解能力
让人惊奇的是,GPT-4 在4个场景下零样本效果超过 fine-tuned 的SOTA, GPT-4 在多语言理解、图文理解能力上均很强大并已融会贯通。
2、支持更长的上下文窗口
如之前外网泄露图中,GPT-4 存在两个版本。其支持的上下文分别是 8K 和 32K,是 ChatGPT 上下文长度的2倍和8倍,其成本也分别为 ChatGPT 的3倍和7倍。
3、 复杂任务处理能力大幅提升
GPT-4 在更复杂、更细微的任务处理上,回答更可靠、更有创意。这在多类考试测验中以及与其他 LLM 的 benchmark 比较中得到。
4、改善幻觉、安全等局限性
在各类任务上幻觉问题显著减轻,比最新的 GPT-3.5 模型高 40%。同样在安全能力的升级上,GPT-4 明显超出 ChatGPT 和 GPT3.5。
5、 建立LLM测试标准
开源 OpenAI Evals 创建和运行基准测试的框架,其核心思想是对 GPT-4 等模型进行评估,并逐个样本检验性能。此举是可以让大家指出其模型中的缺点,以帮助 OpenAI 进一步改进模型。
6、预测模型扩展性
这个特点之前行业内讨论涉及相对比较少。GPT-4 在 1/1000 的计算量上实现了扩展性的预测。特别在 LLM 不适合广泛调参的情况下,用较小的模型提前预测训练行为和 loss,极大地提升了训练效率、降低了训练成本、增强了 LLM 训练的可控性。
三、GPT-4 工作原理:
- Transformer架构: GPT-4是使用一种叫做「Transformer」的设计来构建的,这些转换器就像超级智能机器,能够理解一句话中哪些词是重要的,以及它们之间的关系。
- 大规模的预训练: GPT-4从大量的文本中学习,如书籍、网站和文章,这样一来,它就能更好地理解语言模式、语法和事实。
- 微调(Fine-tuning): 在从大量文本中学习后,GPT-4会在特定的任务中接受训练,如回答问题或理解文本中的情感,这有助于它在处理这些任务时变得更加出色。
- 分词(Tokenization): GPT-4将文本分解成更小的部分,称为「tokens」,这些token可以是单词或单词的一部分,这有助于它处理不同的语言并理解词语的含义。
- 上下文窗口(Context window): GPT-4有一个限制,即它可以一次查看多少个token。这个限制有助于它理解语境和单词之间的关系,但这也意味着它不一定能理解很长的句子或段落。
- 概率分布和抽样: 当GPT-4生成文本时,它根据模型认为每个词的可能性的大小来猜测下一个词。然后,它从这些猜测中挑选出一个词,使其够创造出多样化和有趣的句子。
- 细粒度控制(Fine-grained control): GPT-4可以通过使用特殊提示或调整其设置等技巧,引导它给出特定类型的答案或文本,以帮助从该模型中获得我们想要的结果。
总结:GPT-4 的能力已在各种专业和学术基准上表现出了人类的水平,包括以大约前 10% 的成绩通过模拟律师资格考试。而对于生成式的幻觉、安全问题均有较大的改善;同时因对于图片模态的强大识别能力扩大了 GPT-4 的应用范围。