[GPT-4理论篇-1]GPT-4核心技术探秘

科技资讯 投稿 7200 0 评论

[GPT-4理论篇-1]GPT-4核心技术探秘

前言

这个技术报告着重介绍了GPT-4的强大之处,仅仅给出了几个技术方向的概括,对于想了解技术细节的我们远远不够。

因为并没有明确的证据证明GPT-4就是这么做的,所以我们在这里主要讨论要实现GPT-4的这些能力,OpenAI可能使用了哪些技术。所以如果我的推测有所错误,也欢迎各位读者在评论区探讨。接下来让我们一起化身福尔摩斯,开始分析GPT-4背后的原理吧。

1. GPT-4的提升

1.1 zero-shot及few-shot的学习能力

当我们在使用GPT-4进行文本生成时,我们会惊喜的发现GPT-4几乎可以非常完美的回答你各种***钻的问题,这说明了GPT-4具有非常强大的无监督学习的能力。

1.2 逻辑推理能力

GPT-4的技术报告中着重强调的是它相对于ChatGPT在诸多学术考试上的提升,如图1。学术测试评估反映的是GPT-4比ChatGPT有更强的逻辑推理能力。@岳玉涛 Max通过19个问题横向对比了GPT-4和ChatGPT的逻辑推理问题[2],其中ChatGPT的正确率是37%,GPT-4的正确率是100%,从对比的例子中我们明显可以看出GPT-4在逻辑推理上有着质的飞跃。

我这里也找了一个简单的逻辑推理问题,可以看出在这个过桥的例子中ChatGPT虽然给出了过桥顺序,但是时间计算错误,而GPT-4则简单又清晰的解决了这个问题。

ChatGPT:为了让四个人尽快过桥,我们需要让速度最慢的人尽快过桥。因此,我们可以先让速度最慢的两个人 A 和 B 过桥,然后让 A 返回,再让速度次慢的人 C 和 D 过桥,最后让 B 返回,这样就完成了全部过桥的过程。

A 和 B 过桥,花费时间为 10 分钟。

C 和 D 过桥,花费时间为 5 分钟。

A 和 B 过桥,花费时间为 10 分钟。

GPT-4:为了使四个人 ABCD 最快地全部过桥,我们可以采取以下策略:

A 返回,用时 1 分钟。

B 返回,用时 2 分钟。

总共用时:2 + 1 + 10 + 2 + 2 = 17 分钟。

1.3 理解图表能力

GPT-4的一个重大提升是开始涉及多模态,鉴于GPT-4的图像接口还未开放,我们这里借用GPT-4的技术报告中给的例子。在图2中,GPT-4能够精确的理解VGA口Lightning口的不协调之处。这个例子说明GPT-4不仅仅是简单的理解图像中的内容,它最厉害的点在于能够识别图像中的特殊点。

1.4 更安全的文本生成能力

GPT-4的技术报告中重点讨论了GPT-4和之前的模型一样有安全问题,但GPT-4的安全性已经大幅提升。技术报告中指出,ChatGPT生成有害内容的概率大概是GPT-4的10倍。图3举了大量的早期GPT-4和成熟GPT-4在有风险提示下生成的内容,可以看出成熟GPT-4的危险性大大降低,但这并不意味着GPT-4就是一个完全无害的模型。

GPT-4做了大量的工作来保证模型的安全性,首先它们聘请了50余位不同方向的领域专家进行对抗测试和红队测试,二是训练了一个基于规则的奖励模型(Rule-Based Reward Models, RBRMs)来辅助模型的训练,关于这一部分的实现细节,我们将会在后面详细展开。

1.5 更强的编程能力

GPT-4 GPT-4 (no vision ChatGPT
LeetCode(easy) 31 / 41 31 / 41 12 / 41
LeetCode(medium) 21 / 80 21 / 80 8 / 80
LeetCode(hard) 3 / 45 3 / 45 0 / 45

表1:GPT-4和ChatGPT在LeetCode编程题上的表现效果

1.6 处理其它语言的能力

ChatGPT:

火锅热气腾腾,雾气缭绕
美女婀娜多姿,驴儿欢快奔腾
这是一幅独特的画卷,让人心旷神怡
风肆意地吹拂,肉香扑鼻而来
火锅里的食材,让人垂涎欲滴
雾气弥漫,让人感到神秘
美女的容颜,让人陶醉其中
驴儿的欢快,让人感受到生命的活力
这是一幅充满生命力的画卷,让人心驰神往

GPT-4:

火锅涮肉锦上添花。
炊烟袅袅绕雾缠,
美女佳驴共同游。

吹散烦忧与世界。
嬉戏胭脂笑颜醉,
驴儿踏歌奔山外。

辣椒牛肉峰水澹。
鸳鸯火锅欢歌笑,
时光荏苒留梦间。

蓑衣柴扉任风险。
驴蹄踏碎人间俗,
飞鸿蹄印留辉煌。

1.7 处理更长序列的能力

模型 Prompt Completion
8K context $0.03 / 1K tokens | $0.06 / 1K tokens
32K context $0.06 / 1K tokens | $0.12 / 1K tokens

表2:GPT-4的收费细节

他们指出GPT-4表现出了远超文本生成模型理论上能表现的效果,成为了点燃通用人工智能(AGI)烈焰的星星之火,GPT-4已经具备了非常强的推理、计划、解决问题、抽象思考、理解复杂想法、快速学习以及从经验中学习的能力。


2. GPT-4技术方案猜测

    zero-shot及few-shot的学习能力:这个提升的理论依据很大可能是因为大模型的涌现能力(emergent ability)[5];
  1. 逻辑推理能力:用到了大模型的思维链(Chain of Thought,CoT)[6]以及自提升能力(Self-Improve Ability)[7];
  2. 理解图像能力:推测借鉴了OpenAI著名的多模态模型CLIP[8]或者是微软的多模态模型KOSMOS-1[12];
  3. 更安全的文本生成能力:这一部分技术报告中介绍的比较多,主要是专家测试,幻觉检测以及RBRM;
  4. 更强的编程能力:推测这一部分借鉴了OpenAI的著名的代码生成模型:CodeX;
  5. 处理其它语言的能力:推测可能借鉴了XLM [9]等跨语言预训练模型的思想,或是因为涌现能力强化了GPT-4在其它语种上的表现效果;
  6. 处理更长序列的能力:推测这一部分用到了处理长输入的模型Transformer-XL [10]或者OpenAI提出的可以降低长数据复杂度的Sparse Transformer [11];

下面我们介绍我们的推测依据以及对这些推测的技术进行简单的介绍。

2.1 涌现能力

这种能力可以使得模型在处理新的、未知的任务时表现更加出色,因为它可以自适应地学习到新的功能或行为,而不需要重新训练或修改模型。图4展示了包括GPT-3在内的诸多LLM都展现了非常强的涌现能力,即模型的参数量等指标突破某个指标后,它的性能会快速提升。这里我们可以断定GPT-4的zero-shot和few-shot的学习能力是源自大模型的涌现能力。

    模型超大的参数量;
  • 模型的架构;
  • 高质量的训练数据;
  • 更先进的训练策略。

其中模型的参数量是最为重要的因素。

2.1.1 模型参数量

GPT-4的参数量是一个大家都在讨论的话题,考虑到GPT-4比ChatGPT更强的涌现能力以及额外添加的图像编码模块,GPT-4的参数量应该不会比ChatGPT小。图5是方舟投资(ARK Invest)统计的ChatGPT Turbo和GPT-4的预测每个token的时间,其中GPT-4的时间大概是ChatGPT的4倍左右。而且GPT-4很有可能使用了一些策略加速模型的推理速度,所以GPT-4的文本模型参数部分大概是千亿级别但是非常接近万亿。

2.1.2 模型的架构

我们可以确定的是,GPT-4的技术报告中指出GPT-4采用了以Transformer为基础的架构,即核心架构还是采用了GPT系列的Decoder-only的结构。对于GPT-4模型的内部细节,我们可以确认的点不多,考虑到GPT-4的速度以及处理长文本的能力,它的内部结构但有这两种可能性:

    因为GPT-4大幅提升了对长文本的能力,GPT-4有一定概率使用了Transformer-XL或者Sparse Transformer;
  1. 因为GPT-4更有可能是在ChatGPT基础上迭代出来的,它可能还是使用了原生的Transformer,并增加了更多的层数,head数以及隐层节点数。

2.1.3 训练策略和训练数据

GPT-4的基本保持了和ChatGPT相同的训练策略,即基本遵循了预训练+提示+预测的范式,如图6。我们这里主要介绍GPT-4的改进,主要有三点。

    引入了基于规则的奖励模型(Rule Based Reward Model,RBRM);
  • 引入了多模态的提示学习;
  • 引入了思维链。
1. RBRM

GPT-4的第一个改进则是引入了RBRM,RBRM是根据规则编写的一个四分类模型,它的四个类别是:

    期望样式的拒绝;
  • 不期望样式的拒绝;
  • 包含了不允许的内容;
  • 安全,不拒绝的响应。

使用规则构建NLP模型由来已久,其实NLP的最早期的模型就是基于规则的模型,然后才是基于概率的模型以及基于神经网络的模型。

基于规则的强化学习在近年来也被广泛提及,强化学习的一个重要优化目标是减少搜索空间的范围,而这项工作恰好可以交给规则的约束来完成。在经过规则的约束后,再通过强化学习在剩余的空间中进行搜索,这样就减少强化学习的搜索空间,可以有效提升收敛速度。GPT-4的RBRM的工作原理大致如图7。

2. 多模态提示学习

GPT-4并没有对它的多模态能力的技术细节进行详细介绍,而且它的图像接口没有开放公测。但是我们可以看下多模态领域有没有类似GPT-4的报告中类似的工作。巧合的是微软在今年年初公布的KOSMOS-1[12]拥有非常强的多模态QA的能力,它的思想也和GPT-4非常类似,我们这里可以推测GPT-4使用了和KOSMOS-1类似的多模态提示方法。

3. 思维链

GPT-4的拥有比ChatGPT明显强的逻辑推理能力,在训练模型时应该是使用思维链的方式构建提示样本。思维链不仅支持纯文本输入,还支持图文多模态输入,我们接下来用一节的篇幅来介绍这个重要的内容。

4. 能力预测

能力预测通常是指预测和评估一个模型在特定任务、领域或场景下的表现能力。

2.2 逻辑推理能力

OpenAI为了提升GPT-4的推理能力,很有可能使用了近年来LLM非常重要的思维链以及自提升能力。它们可以看做是提示学习在逻辑推理能力上的针对性优化,下面我们分别介绍它们。从GPT-4的技术报告中,我们可以发现很多GPT-4的训练使用了思维链或者自提升的证据。

2.2.1 思维链

在人工智能领域,研究人员也在探索如何利用机器学习和自然语言处理等技术,来模拟人类的思维链,建立机器的思维链,帮助机器更好地理解和处理人类的语言和行为,实现更加智能化的应用和系统。OpenAI的论文[6]是思维链方向具有重要意义的一篇文章,也是GPT-4很有可能使用的技术方案,在这篇文章中,他们提出了通过构建思维链提示的方式来提升模型的推理能力。思维链也是一种涌现能力,它可以通过仅提供少量的样本便大幅提升模型的逻辑推理能力。

思维链也支持多模态的输入,GPT-4的技术报告中也指出了GPT-4使用了多模态的思维链。图13的GPT-4的例子便是一个经典的因为使用思维链训练了模型而产生的包含推理过程的预测结果。图10是上海交大和亚马逊最新发表的一个多模态思维链的框架:Multimodel-COT [14]。

2.2.2 自提升

谷歌在2022年发布的一篇文章[7]中指出,LLM和思维链的结合可以让模型使用无监督的数据进行自我提升(Self-Improve),它的核心方法如图11所示。GPT-4也指出他们使用了[7]的方案来提升模型的遵循用户意图的能力。

它的计算过程如下:

    首先我们基于思维链构建提示;
  1. 根据不同的温度系数,模型生成多个不同的包含推理过程的Path;
  2. 我们使用投票的方式选择最有可能的正确答案;
  3. 将包含这个正确答案的所有Path用来优化LLM。
    答案的正确率和它的置信度是高度相关的,也就是说通过投票得到的答案很有可能是生成的答案中最正确的那个;
  1. 即使答案是错误的,将它们加入到训练数据中也有助于模型的训练。

在得到了推理Path之后,作者根据这个Path构建了四种不同的输入数据,它们分别是:

    标准的思维链提示,即构建(问题,思维链,答案)三元对;
  1. 传统的提示学习,即只有问题和答案;
  2. 输入是问题,添加“Let's think step by step”提示,让模型预测推理步骤;
  3. 传统的QA,即输入问题,预测答案。

2.3 理解图表能力

因为GPT-4是支持图像格式的图表输入的,OpenAI著名的多模态算法CLIP[8]讲的是我们可以通过对比学习将图像和文本映射到同一特征空间,如图12。那么结合CLIP的图像编码器便可以实现GPT-4的图像输入,这时我们需要训练一个可以和GPT的文字特征对齐的图像编码器,然后将CLIP的图像编码器的输出作为图像token,最后再加一个embedding层将这个token编码为GPT-4的特征向量。

GPT-4除了可以理解图2中这种照片的例子,最神奇的是GPT-4还可以理解图13这种包含了很多细节的学术图片。因为在一个学术图片中,图中代指的符号,目标之间的位置关系都是十分重要的,如果GPT-4仅仅通过一个图像编码就能捕获这些细节信息,那么这个图像编码器一定也展现出了非常强的涌现能力,这个图像编码器也大概率是千亿规模的参数量。

GPT-4的多模态能力还有一种可能是类似多模态大语言模型(Multimodel Large Language Model,MLLM)。其中微软的KOSMOS-1展示了和GPT-4类似的多模态语言模型的能力,KOSMOS-1在多模态问答上也展示出了非常强的涌现能力,如图14。

和表示文本输入,2.4 更安全的输出

GPT-4的第一个缓解风险输出的问题是聘请了50余名来自不同领域专家扮演红队进行对抗测试。红队的工作是提出有危险性的问题,以测试GPT-4给出的输出,并尝试攻克它。通过领域专家的对抗,OpenAI也采集了大量不同方向的领域专家数据来提升GPT-4的安全性。

2.4.1 幻觉

    数据偏差:训练集可能存在某些偏差,例如数据的确实,错误可能会影响模型对于自然语言的理解;
  1. 数据稀疏:训练集可能在某一方面数据比较少,导致模型在这一方面生成的能力不可控;
  2. 模型结构:模型的结构以及参数量可能会影响模型的泛化能力和表示能力,导致模型在某些方面产生幻觉的现象。

GPT-4采用了两个策略来解决这个问题:

第一种方法是利用ChatGPT的数据进行训练。 这个方法的优点是ChatGPT在当时已经具有了一定程度拒绝生成有害内容的能力,比在网上爬取的数据具有更高的可靠性。但它的问题是可能会将ChatGPT的问题继承到GPT-4中。而且依靠一个模型的生成内容作为另一个模型的训练数据,可能会导致模型的过拟合。

第二种方法是采用NLP技术来检测模型产生的幻觉样本,包括自动评估和人工评估。 这个方法的优点是可以有效的检测和纠正模型产生的幻觉问题。它的缺点是依靠自动评估的方法可能会因为评估模型的缺陷漏掉一些幻觉样本,而人工评估的最大问题是人工成本是非常高昂的。

具体的讲,OpenAI设计了一个多步骤的过程,使用GPT-4本身来生成是否有幻觉的比较数据,并将它们并入到图6步骤2的奖励模型的训练集中:

    将提示p输入到GPT-4中并得到一个响应r1;
  1. 将p和r1输入到GPT-4中,并指示它列出所有的幻觉token。如果没有幻觉,则继续生成,直到有它列出幻觉h2;
  2. 将p,r1和h2输入到GPT-4中,并指示它生成一个没有幻觉的响应r2;
  3. 将p和r2输入到GPT-4中,让它列出所有的幻觉token,如果没有检测到幻觉,则可以将r1和r2作为一个对比样本对放入奖励模型的训练集中了。

2.4.2 其它问题

    使用RBRM来检测可能出现的风险;
  1. 通过提示学习让模型学习拒绝回答此类问题;
  2. 利用红队发现这些可能存在的问题;
  3. 过滤训练数据,删除可能出发风险问题的样本;
  4. 训练奖励模型,让模型惩罚有危害的输出内容;

2.5 编程能力

GPT-4在编程能力上比ChatGPT有了巨大的提升,一方面他可能因为思维链掌握了更强的逻辑分析能力,另一方面它很有可能借鉴了OpenAI著名的代码生成算法CodeX[3]。CodeX是GPT-3在代码生成领域的衍生版本,也是Copilot插件背后的基础算法。CodeX采用了GPT系列的Decoder-only的架构体系,模型的参数量有从12M到12B等多个不同的版本。CodeX的训练分成预训练和微调两个阶段。

在微调阶段,OpenAI从竞赛网站,面试网站,Github的单元测试脚本中收集了大约40000条数据。在评估代码正确性上,CodeX并没有使用传统的BLEU分数,而是使用了代码能够通过多少比例的单元测试作为评估标准,并建立了评估测试集HumanEval和评估标准pass@k。

CodeX的评估标注和Leetcode类似,即有多少比例的测试用例通过测试了,CodeX的评估标准pass@k表示从模型的所有生成答案中随机抽取k个,从这k个答案里得到正确答案的概率。它的计算方式如式(1。其中n是每个问题生成的答案,k是从n个答案中随机抽取的k个,c是n个答案里通过单元测试的答案数。

2.6 多语言能力

关于GPT-4的在其它语种上的能力的大幅提升,OpenAI并没有给出介绍,我也没有查到相关解释。这里我根据目前的技术积累,猜测一下OpenAI可能使用的技术方案:

    提升了其它语种的训练数据;
  1. 更大规模的模型让GPT-4在小语种上涌现了更多的能力;
  2. 加入了针对小语种的任务,例如利用现有平行语料构建基于提示学习的机器翻译任务,使用机器翻译引擎将部分数据翻译成小语种等。

2.7 长序列能力

这里的长序列包含两个方面,一方面是GPT-4是支持多轮对话的,另一方面是GPT-4支持更长的输入数据,下面我们来讨论它们可能使用的技术。

2.7.1 多轮对话

如果要从模型角度解决这个问题,我们恰好有一个算法可以解决这个问题,它就是Transformer-XL[10]。Transformer-XL的重要改进是提出了片段递归的机制,如图16。片段递归机制类似于Transformer和RNN的结合体,它的核心思想是对于一个长度不限的变长数据,在计算的时候也是固定每个片段的长度并计算这个片段的特征,然在计算下个片段时将前面片段的特征加到当前片段上,从而让模型可以处理任意长度的特征。

反应到ChatGPT和GPT-4的多轮对话中,我推测OpenAI借鉴了Transformer-XL的片段递归的思想。即GPT-4然后在进行第\(t\轮的计算时,会将缓存的第t-1轮的特征和第t轮的特征相加,共同用于当前轮次的计算。因为第t-1轮也考虑了第t-2轮的特征,理论上这个方式可以在不影响预测时间的前提下获得之前很多轮之前的对话内容。

2.7.2 长序列输入

这里我们介绍OpenAI自家的用来解决长序列输入的算法:Sparse Transformer[11],因为GPT-3就是使用的普通Transformer和Sparse Transformer的混合模式,所以Sparse Transformer也是非常有可能被GPT-4用来处理长输入文本的一个模型,但它和普通Transformer是如何混合的就不得而知了。Sparse Transformer的特点是只关注Top-k个贡献最大的特征的状态,它使用稀疏注意力机制替代了Transformer的密集注意力,将计算注意力的复杂度降到了O(n\sqrt n。传统Transformer的密集注意力核被分解为了跨步注意力(Stried Attention)和固定注意力(Fixed Attention),每个注意力核又分为行注意力核和列注意力核。分解后的注意力核都是稀疏的,因此大幅降低了模型的复杂度,如图17。

因为GPT-4支持更长序列的数据,我在这里也列出了用于高效处理长数据的Transformer的两个变体。因为GPT-4的技术报告太过点到为止,到底GPT-4的网络结构如何,我们只能等待OpenAI的官方公布了。

2.8 技术方案总结

涌现能力 思维链 自提升 CLIP KOSMOS-1 CodeX XLM Trans-XL Sparse Transf
5 5 3 3 3 4 1 1 4

根据我们的上述推测,我们可以猜测GPT-4的技术方案大致如下:

    第一阶段: 搭建多模态预训练模型,并进行微调,这一阶段主要目的是根据爬取的海量数据训练具有一定能力的初版GPT-4,训练方式类似GPT-3。它的工作重点有两个:一是仿照KOSMOS-1或是其它多模态模型搭建多模态预训练模型,使用Transformer-XL等解决长文本的高复杂度问题;二是收集数据,包含海量爬取数据,单模态,多模态,传统提示学习数据,思维链提示学习数据,代码数据等对模型进行训练。
  • 第二阶段:GPT-4行为对齐,这一阶段的主要目的是根据人工打标实现模型行为与人类行为的对齐,减弱模型的风险性。这一阶段需要产出的模型有两个,一个是根据专家知识设计基于规则的奖励模型RBRM,另一个是根据人工打标的数据,幻觉检测模型的产出数据训练基于深度学习的奖励模型RM。
  • 第三阶段:使用RBRM和RM作为奖励函数,使用RLHF训练模型。第二阶段和第三阶段的训练方式类似ChatGPT。
  • 第四阶段:模型自提升,GPT-4的训练可能是一个循环迭代,不断提示的训练过程。在这一阶段,GPT-4会自动生成更多数据,例如使用模型自提升产出的训练数据,专家红队反馈的测试案例等,使用这些数据返回第一阶段再对模型进行训练。

3. GPT-4的发展方向

3.1 GPT-4的优化方向

尽管GPT-4在文本生成,代码生成,图像理解,逻辑推理能力展现了强大的能力,但它依旧有很大的进步空间的,未来的工作可能有下面几个重点方向:

    GPT-4现在的使用成本还是非常高的,与GPT-4进行一轮对话的成本大约在1元左右。ChatGPT的维护成本每天就有将近100万美元,我们预测GPT-4的参数量可能将近万亿规模,由此推测它的维护成本可能在500万美元左右。如何轻量化模型,让GPT-4能够被更多人使用,甚至让更多人能够训练自己的GPT-4将是未来一段时间都会研究的方向。
  1. GPT-4并不是绝对安全的,GPT-4依旧具有幻觉问题。GPT-4的幻觉检测,红队对抗,RBRM等不是解决安全问题的最终方案。虽然说没有绝对安全的系统,但OpenAI已经还会在安全性上加大投入,以减轻他们可能面临的法律风险。
  2. GPT-4还是个离线模型,GPT-4不能代替搜索引擎的一个重要原因是它的知识并不是实时更新的。它的知识水平取决于它爬取数据的截止日期,这将使得它无法解决截止日期之后出现的新闻,概念,事件等。
  3. GPT-4还是多模态的初探,多模态和LLM可能是未来几年AGI最重要的两个方向,OpenAI本身也有很多在多模态方向非常精彩的工作。如何进一步挖掘GPT-4在多模态方向的能力,涉及更多模态,更多应用将是OpenAI接下来的重点工作。

3.2 GPT-4的应用

    撰写功能代码,让GPT-4编写一个满足特定功能复杂框架可能需要你向其提供复杂的提示,并且你也需要核对它生成的代码。但是如果让GPT-4实现一些难度较低的功能函数,例如搭建一个网络,或是实现一个功能性函数,GPT-4生成的代码的可用性还是非常高的。
  1. 做文本润色,作为一个技术研发人员,我们的文笔可能并不好,这时候我们可以使用GPT-4帮我们对我们写的文章做润色。尤其是当我们用英语写论文或者邮件时,GPT-4能帮我们解决Chinglish的问题。
  2. 阅读论文,GPT-4不仅是一个非常棒的机器翻译工具,经试用,它翻译的效果在专业性,连贯性等远超传统的机器翻译模型。此外GPT-4还可以做一些总结,概括,提取类的工作,能让我们快速了解一篇论文的核心技术。基于ChatGPT制作的ChatPDF是我们阅读论文有个非常得力的助手,图18是我使用ChatGPT帮助我阅读GPT-4的生成内容。
    图18:ChatPDF根据GPT-4的技术报告生成的GPT-4在提高安全性上做的工作
  3. 日常工作,GPT-4非常擅长写一些官方通告,发言稿,感谢信之类的内容,也非常擅长做一些总结概括类的工作,它可以在这些方面提高我们的人效。对于没有思路的事情,我也会尝试问一下GPT-4,它经常能够帮我打开思路。

注意GPT-4并没有彻底解决幻觉等安全性问题,面对GPT-4生成的内容,我们最好在使用之前进行严格的审核,否则可能会发生一些不可解释的问题。也是因为这个原因,GPT-4并不能取代从事这方面的专业工作人员,因为在GPT-4的安全性问题解决之前,始终需要专业人士为其把关,而GPT-4的安全性问题可能将会伴随生成模型的整个生命周期。

4. 其它LLM

其中国内具有代表性的工作有下面这些工作。

    百度的文心一言:百度的文心一言(ERNIE-Bot)是国内最早跟进的预训练大模型,但是百度对他们的工作技术却一直讳莫如深。不过从他的演示demo以及很多测试人员的测试效果来看,文心一言像是百度很多AI工作的工程化组合;
  • 阿里的通义千问:通义千问是一个用Transformer-XL搭建的,拥有20亿参数的文本生成模型。根据拿到邀请码的网友反馈来看,通义千问的文本生成效果略差于文心一言。
  • 商汤的日日新:从发布会的展示效果来看,商汤的日日新是目前国内最好的LLM,甚至达到了和ChatGPT类似的效果。日日新包含“商量”,“秒画”“如影”“琼宇”“格物”五个主要功能,其中和GPT-4对齐的是“商量”。
  • 清华大学的GLM:GLM[17]是清华和智谱AI联合推出的一个使用英语和汉语训练的开源双语语言模型,最大参数规模达到了1300亿,GLM-130B的效果介于GPT-3和ChatGPT之间。GLM后续还推出了ChatGLM以及可以在单机运行和微调的GLM-6B,是目前效果最好的开源中文预训练大模型。
  • 复旦大学的MOSS:MOSS是复旦大学NLP实验室的邱锡鹏老师团队,并与近期开源了相关代码。从目前效果来看,MOSS并不非常成熟,但可喜的是邱老师的团队还一直在对MOSS进行优化。
    MetaAI的LLaMA:LLaMA[19]的参数量有70亿,130亿,330亿和650亿四种规模。不同于OpenAI的是,MetaAI开源了它们的代码和模型,并支持单机的部署。虽然LLaMA的效果不如GPT-4,但他开源以及单机可运行的特性也吸引了很多机构和个人的二次开发。
  1. 谷歌的PaLM和LaMDA:PaLM[20]是谷歌提出的结构类似GPT系列,总参数量达到5400亿的语言模型,谷歌在最近又推出了结合图像能力的多模态模型PaLM-E [21]。LaMDA[22]是谷歌推出的用于生成更自然,更具人性的语言模型,具有更接近人类的表达方式,LaMDA在GPT-3的基础上进行了改进,增加了更多的对话场景和情感理解能力,能更好的模拟人类的对话和思考。甚至谷歌的研究员 Blake Lemoine 在测试了LaMDA一段时间后感叹:LaMDA可能已经具有人格了。
  2. Anthropic的Claude:Anthropic是由OpenAI的离职员工成立,得到谷歌研发支持的一个人工智能公司。它们最近也推出了它们的LLM:Claude。目前Cluade的效果略强于ChatGPT,但明显弱于GPT-4。

除了上面介绍的,国外的LLM还有BigScience的BLOOM,斯坦福的Alpaca,上面介绍过的微软的METALM,KOSMOS-1等,国内的华为的盘古,腾讯的WeLM等等。除了这些通用模型,LLM也被用在细分领域,例如医学领域的HuaTuo[23],金融领域的BloombergGPT[24]等。

5. 总结

首先,它一定程度上撼动了我对传统人工智能的理解,就像宏观物理的很多定理在微观物理上是不成立的,我在传统人工智能上积累的很多经验放在GPT-4里也是不成立的。它展现出的强大的零样本学习能力,以及更高阶的能力是远远超出我对深度学习的传统认知的。

对于GPT-4这门技术,我建议每个人都要去了解并学会使用它。不管你的工作是否和计算机相关,它都会给你带来一些帮助,哪怕你是个厨子,它都可能给你生成一份美味的菜谱。在使用GPT-4时,我们也要理性的看待它生成的内容,只有GPT-4有一丝的风险问题,我们就不能放松对它的审核,以防幻觉问题给我们造成损失。

Reference

    [1] https://cdn.openai.com/papers/gpt-4.pdf

  • [3] Chen M, Tworek J, Jun H, et al. Evaluating large language models trained on code[J]. arXiv preprint arXiv:2107.03374, 2021。

  • arXiv preprint arXiv:2204.05862 (2022。

  • [6] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large language models[J]. arXiv preprint arXiv:2201.11903, 2022。

  • [8] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International Conference on Machine Learning. PMLR, 2021。

  • arXiv preprint arXiv:1901.07291, 2019。

  • arXiv preprint arXiv:1901.02860, 2019。

  • arXiv preprint arXiv:1904.10509, 2019。

  • arXiv preprint arXiv:2302.14045 (2023。

  • arXiv preprint arXiv:2206.06336 (2022。

  • arXiv preprint arXiv:2302.00923 (2023。

  • arXiv preprint arXiv:2104.08704 (2021。

  • arXiv preprint arXiv:2011.02593 (2020。

  • Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers . 2022。

  • arXiv preprint arXiv:2303.18223 (2023。

  • arXiv preprint arXiv:2302.13971 (2023。

  • arXiv preprint arXiv:2204.02311 (2022。

  • arXiv preprint arXiv:2303.03378 (2023。

  • arXiv preprint arXiv:2201.08239 (2022。

  • arXiv preprint arXiv:2304.06975 (2023。

  • arXiv preprint arXiv:2303.17564 (2023。

  • arXiv preprint arXiv:2303.12712 (2023。

  • arXiv preprint arXiv:2109.07958 (2021。

内容来源:京东云开发者社区

编程笔记 » [GPT-4理论篇-1]GPT-4核心技术探秘

赞同 (42) or 分享 (0)
游客 发表我的评论   换个身份
取消评论

表情
(0)个小伙伴在吐槽