GPT-4 只是个开始——四年后我们将在哪里?不要低估深度学习进步的快速步伐,到 2027 年实现 AGI 是非常有可能的

chatgpt2024-06-05 12:06:2266

先做个广告:如需代充值GP4会员及购买GPT帐号,请添加站长客服微信:gptchongzhi

全文目录

  • 过去四年
    • GPT-2 到 GPT-4
    • 深度学习趋势
  • 算力数量级变化
    • 从聊天机器人到代理合作
    • 数据壁垒
    • 计算能力
    • 算法效率
    • 解锁
  • 未来四年
    • 附录:数量级变化竞赛:这是一个关键的十年

推荐使用ChatGPT中文版,国内可直接访问:https://ai.gpt86.top 

看。模型,它们只是想学习。你必须理解这一点。模型,它们只是想学习

Ilya Sutskever(约 2015 年,from Dario Amodei[1])

GPT-4 的能力震惊了许多人:一个能写代码和论文的 AI 系统,能推理复杂的数学问题并通过大学考试。几年前,大多数人认为这些是难以攻克的壁垒。

GPT-2 到 GPT-4 在 4 年内让 AI 从 学前儿童水平提升到聪明的高中生水平。根据计算能力的趋势(~每年 0.5 个数量级)、算法效率(~每年 0.5 个数量级)和“解锁”收益(从聊天机器人到代理),我们应该预期到 2027 年将有另一次从学前儿童到高中生水平的质的飞跃。

但 GPT-4 只是十年深度学习飞速进步的延续。十年前,模型几乎不能识别猫狗的简单图像;四年前,GPT-2 几乎不能拼凑出半合理的句子。现在我们正在迅速达到所有我们能想出的基准。然而,这种戏剧性的进步只是深度学习规模扩展的持续趋势的结果。

早就有人看到了这一点。他们被嘲笑,但他们只是信任了趋势线。这些趋势线是强劲的,而且他们是对的。模型,它们只是想学习;你扩大规模,它们就学得更多。

本文提出以下主张: 到 2027 年,模型能够完成 AI 研究员/工程师的工作的可能性非常大。 这不需要相信科幻小说;只需要相信图表上的直线。

图1

根据本文讨论的公共估计,过去和未来有效计算能力(包括物理计算和算法效率)的粗略估计。随着我们扩大模型,它们变得越来越聪明,通过“算力数量级变化”计数我们可以大致了解未来(近期)我们应该期望的模型智能水平。(该图仅显示基础模型的扩展;未显示“解锁”部分。)

在本文中,将简单地“算力数量级变化”计数(OOM = 数量级,10 倍=1 数量级):查看 1)计算能力、2)算法效率(我们可以将其视为增加“有效计算”的算法进展)和 3)“解锁”收益(修复模型默认的明显限制,解锁潜在能力并赋予其工具,导致实用性的飞跃)中的趋势。我们追踪 GPT-4 之前四年的增长,以及之后四年的预期增长,直到 2027 年底。鉴于深度学习在每一个有效计算数量级上的持续改进,我们可以用这个来预测未来的进展。

公开来看,自 GPT-4 发布以来的一年里情况一直很安静[2],因为下一代模型一直在“烤炉”里——导致一些人宣布停滞不前并认为深度学习遇到了瓶颈【1】。但通过计数算力数量级变化,我们可以窥见我们实际上应该期待什么。

结论很简单。GPT-2 到 GPT-4——从偶尔能拼凑出几句连贯句子的模型,到能通过高中考试的模型——并不是一次性收益。我们正在迅速通过计数数量级变化,数字表明我们应该在四年内预期另一个~100,000 倍的有效计算规模扩展——导致另一个 GPT-2 到 GPT-4 级别的质的飞跃。此外,关键的是,这不仅意味着更好的聊天机器人;通过“解锁”收益,我们将从聊天机器人转向代理,从工具转变为类似于远程工作者的替代物。

虽然推断很简单,但含义却是惊人的。另一次这样的飞跃很可能会将我们带到 AGI,即智能如博士或专家的模型,可以作为同事与我们一起工作。或许最重要的是,如果这些 AI 系统能够自动化 AI 研究本身,那将启动强烈的反馈循环。

即使现在,几乎没有人把这些因素纳入考虑。但 AI 的情境意识其实并不难,只要你退一步看看趋势。如果你一直对 AI 能力感到惊讶,那就先数一下算力数量级的变化吧。

过去四年

我们现在有了可以基本上像人类一样对话的机器[3]。这对人类适应能力的非凡证明是,这似乎很正常,我们已经习惯了进步的速度。但值得退一步看看过去几年的进步。

GPT-2 到 GPT-4

这里需要提醒你,在 GPT-4 前的约 4 年里我们取得了多大进步。

GPT-2(2019 年)~ 学前儿童:“哇,它可以拼凑出几句合理的句子。”一个关于安第斯山脉独角兽的半连贯故事的非常精选的示例它生成的[4]在当时令人印象深刻。然而,GPT-2 几乎不能数到 5 而不出错;【2】在总结一篇文章时,它仅仅略微优于从文章中随机选择的 3 个句子【3】。

图2

GPT-2 在当时被认为令人印象深刻的一些示例[5]。左:GPT-2 在非常基本的阅读理解问题上做得还可以。右:在一个精心挑选的样本中(10 次尝试中最好的一次),GPT-2 能写出一段关于南北战争的半连贯段落。

将 AI 能力与人类智力进行比较是困难且有缺陷的,但我认为这里的类比是有意义的,即使它非常不完美。GPT-2 因其语言掌握能力和偶尔生成半连贯段落或偶尔正确回答简单事实问题的能力而令人震惊。这正是让学前儿童感到印象深刻的。

GPT-3(2020 年)【4】~ 小学水平:“哇,经过一些少量示例,它能做一些简单有用的任务。”它开始更加一致地生成多个段落,并且能纠正语法和进行一些非常基本的算术。这是第一次,它在一些狭窄的领域内也具有商业价值:例如,GPT-3 可以生成简单的文案[6]用于 SEO 和营销。

图3

GPT-3 在当时被认为令人印象深刻的一些示例[7]。上:在简单指令后,GPT-3 能用一个新造的词语造句。左下:GPT-3 可以进行丰富的故事创作。右下:GPT-3 能生成一些非常简单的代码。

再次强调,这种比较是不完美的,但 GPT-3 给人留下深刻印象的原因或许类似于小学水平的表现:它写了一些基础的诗歌,能讲更丰富且连贯的故事,能开始进行初步的编程,能相对可靠地从简单指令和示范中学习,等等。

GPT-4(2023 年)~ 聪明的高中生:“哇,它能写相当复杂的代码并迭代调试,它能智能且复杂地写关于复杂主题的文章,能推理复杂的高中竞赛数学题,能在我们给出的任何测试中击败绝大多数高中生,等等。”从代码到数学再到费米估算,它能思考和推理。GPT-4 现在在我日常任务中很有用,从帮助写代码到修订草稿。

图4

人们在 GPT-4 发布时认为其令人印象深刻的一些内容,摘自“AGI 的火花[8]”论文。上:它编写非常复杂的代码(生成中间显示的图表)并能推理非平凡的数学问题。左下:解决 AP 数学问题。右下:解决相当复杂的编程问题。更多关于 GPT-4 能力探索的有趣摘录在这里[9]。

在从 AP 考试到 SAT 的所有考试中,GPT-4 的成绩都优于大多数高中生。

当然,即使是 GPT-4 在某些任务上仍然不够完美;在某些任务上它远优于聪明的高中生,而在其他任务上则尚未达标。不过,我倾向于认为这些限制大多归结于模型仍然存在的明显限制,将在后文详细讨论【解锁】。原始的智能(大部分)在那里,即使模型仍然受到人为限制;解锁模型在各个应用中充分发挥这种原始智能还需要额外的工作。

图5

仅四年的进步。你在这条线上在哪儿?

深度学习趋势

过去十年中深度学习的进展速度简直令人难以置信。仅仅十年前,深度学习系统能够识别简单图像就已经是革命性的。如今,我们不断尝试提出新的、更难的测试,但每一个新的基准很快就被攻克。过去需要几十年才能攻克的基准,现在感觉像是几个月。

图6

深度学习系统在许多领域迅速达到或超过人类水平。图表: 我们世界的数据[10]

我们实际上快没有基准可以用了。举个例子,Dan 和 Collin 在 2020 年创建了一个名为MMLU[11]的基准。他们希望最终能创建一个经得起时间考验的基准,相当于我们给高中和大学生的最难考试。仅仅三年后,它基本上被解决了:像 GPT-4 和 Gemini 这样的模型得分约为 90%。

更广泛地说,GPT-4 几乎破解了所有标准的高中和大学能力测试【5】。(而且从 GPT-3.5 到 GPT-4 的一年里,我们往往从远低于人类中位水平到达了人类范围的顶端。)

图7

GPT-4 在标准化考试中的成绩[12]。注意 GPT-3.5 到 GPT-4 在人类百分位数上的巨大飞跃,通常从远低于人类中位数到人类范围的顶端。(这还是 GPT-3.5,一个比 GPT-4 早不到一年的相对近期模型,而不是我们之前讨论的笨拙的小学水平的 GPT-3!)

图8

灰色:专业人士对 2022 年 6 月 MATH 基准(来自高中数学竞赛的难题)表现的预测[13]。红星:到 2022 年 6 月的实际最新性能,远远超过预测的上限。中位数 ML 研究人员甚至更悲观【6】。

或者考虑MATH 基准[14],这是来自高中数学竞赛的一组难题【7】。该基准在 2021 年发布时,最好的模型只能解决约 5%的问题。而原始论文指出:“此外,我们发现如果扩展趋势继续下去,仅仅增加预算和模型参数将难以实现强大的数学推理 […]。为了在数学问题解决上取得更多进展,我们可能需要更广泛研究界的新的算法突破”——他们认为需要根本性的新的突破来解决 MATH。对ML 研究人员的调查预测[15]未来几年会有最小的进展【8】;然而,仅仅一年内(到 2022 年中),最好的模型从~5%提高到50%准确率[16];现在,MATH 基本上被解决了[17],最新性能超过 90%。

一次又一次,年复一年,怀疑论者声称“深度学习无法做到 X”,但很快被证明是错误的【9】。如果我们从过去十年的 AI 中学到了一件事,那就是永远不要对深度学习下赌注。

现在最难解决的基准是类似GPQA[18]这样的测试,一组博士级别的生物、化学和物理问题。许多问题像天书一样,即使是其他科学领域的博士花费 30 多分钟在谷歌上查询也几乎无法超过随机猜测的水平。Claude 3 Opus 目前得分约为 60%,【10】相比之下领域内博士得分约为 80%——预计这个基准也将在下一代或两代模型中被攻克。

图9

一些 GPQA 问题示例。模型已经我们在这方面做得更好了,我们可能很快就会达到专家博士级别的表现…

这是如何发生的?深度学习的魔力在于它就是有效——尽管每一步都有反对者,但趋势线一直非常一致。

图10

计算能力扩展的效果,以 OpenAI Sora的示例为例【11】。

每一个有效计算的数量级,模型都在可预测的、可靠地变得更好。【12】如果我们能计算算力数量级变化,我们就可以(大致、定性地)推断能力的提升。【13】这就是一些先见之明的人看到了 GPT-4 到来的原因。

我们可以将 GPT-2 到 GPT-4 的进步分解为三类规模扩展:

  1. 计算能力:我们在训练这些模型时使用了更大的计算机。
  2. 算法效率:算法进展持续,这些进展中的许多起到“计算倍增器”的作用,我们可以将其放在一个统一的增长有效计算的规模上。
  3. “解锁”收益:默认情况下,模型学到了很多惊人的原始能力,但它们在各种愚蠢的方式上被限制了,限制了其实际价值。通过简单的算法改进,如从人类反馈中进行强化学习(RLHF)、思维链(CoT)、工具和脚手架,我们可以解锁显著的潜在能力。

我们可以在这些轴线上数一下“算力数量级变化”:即在有效计算单位中追踪每个方面的规模扩展。3 倍是 0.5 个数量级;10 倍是 1 个数量级;30 倍是 1.5 个数量级;100 倍是 2 个数量级;依此类推。我们还可以看看我们在 GPT-4 的基础上,预计 2023 年到 2027 年的情况。

下面会一一介绍,但结论很清楚:我们正在迅速通过数量级变化。在数据壁垒中有潜在的阻力,下面会讨论——但总体来看,我们应该期待另一个在 GPT-4 基础上的 GPT-2 到 GPT-4 级别的飞跃, 2027 年

计算能力

下面将从最近进展的最常讨论的驱动因素开始:对模型投入(大量)更多的计算能力。

许多人认为这只是由于摩尔定律。但即使在摩尔定律的鼎盛时期,它也是相对缓慢的——大约每十年 1-1.5 个数量级。我们看到计算能力的扩展速度要快得多——接近摩尔定律速度的 5 倍——而是因为庞大的投资。(在单个模型上花费百万美元曾经是一个没有人会考虑的惊人想法,而现在这只是九牛一毛!)

            模型                      估算计算能力                      增长          
GPT-2(2019年)~4e21 FLOP
GPT-3(2020年)~3e23 FLOP+ ~2个数量级
GPT-4(2023年)8e24到4e25 FLOP+ ~1.5–2个数量级

GPT-2 到 GPT-4 计算能力的估算来源于 Epoch AI[19]

我们可以使用 Epoch AI 的公共估计(这一来源因其对 AI 趋势的出色分析而备受尊重)来追踪 2019 年到 2023 年的计算能力扩展。GPT-2 到 GPT-3 是一个快速的扩展;有一个巨大的计算能力悬挂,从一个较小的实验扩展到使用整个数据中心来训练大型语言模型。随着从 GPT-3 到 GPT-4 的扩展,我们过渡到了现代状态:必须为下一个模型建立一个全新的(更大的)集群。然而,戏剧性的增长继续。总体来看,Epoch AI 的估算表明,GPT-4 训练使用的原始计算能力比 GPT-2 高出约 3000 到 10000 倍。

大致来说,这是长期趋势的延续。过去十五年里,主要由于广泛的投资规模扩展(以及为 AI 工作负载专门设计芯片,例如 GPU 和 TPU),用于前沿 AI 系统的训练计算能力以大约每年~0.5 个数量级的速度增长。

图11

深度学习模型训练计算能力随时间变化。来源: Epoch AI[20]

从 GPT-2 到 GPT-3 的一年内的计算能力扩展是一个不寻常的悬挂,但所有迹象表明长期趋势将继续。旧金山的谣言满天飞,讲述着巨大的 GPU 订单的戏剧性故事。涉及的投资将是惊人的——但它们正在进行中。在竞逐万亿级集群[21]中,根据该分析,到 2027 年底,额外的 2 个数量级的计算能力(一个花费数十亿美元的集群)似乎非常有可能实现;甚至更接近+3 个数量级的计算能力(1000 亿美元以上的集群)似乎也是可能的(据传言[22]微软/OpenAI 正在开发中)。

图12

算法效率

虽然计算能力上的巨大投资引起了所有人的关注,但算法进展可能是同样重要的进步驱动力(而且被严重低估)。

要看到算法进展有多重要,考虑以下示例:在短短两年内,在 MATH 基准(高中竞赛数学题)上达到约 50%准确率的成本下降(相比之下,一个不太喜欢数学的计算机科学博士生得分 40%,所以这已经相当不错)。推理效率在不到两年内提高了近 3 个数量级——1000 倍。

图13

估算在 MATH 基准上达到约 50%性能的相对推理成本。【12】

尽管这些只是推理效率的数字(可能与训练效率改进不对应,训练效率改进的数字很难从公开数据中推断),它们清楚地表明,有巨大的算法进步在可能发生和正在发生。

在本文中,将区分两种类型的算法进步。在这里,将首先介绍“范式内”的算法改进——那些仅仅导致更好的基础模型,并且简单地起到计算效率计算倍增器的作用。例如,一个更好的算法可能允许我们用少 10 倍的训练计算能力实现相同的性能。反过来,这将起到一个 10 倍(1 个数量级)的有效计算增加的作用。(稍后将介绍“解锁”,你可以将其视为“扩展范式/扩展应用”的算法进步,解锁基础模型的能力。)

如果我们退一步看长期趋势,我们似乎以相当一致的速度找到新的算法改进。个别发现似乎是随机的,每一步都似乎是不可逾越的障碍——但长期趋势线是可预测的,是图表上的直线。相信趋势线。

我们对 ImageNet(算法研究主要是公开的,并且我们有十年的数据)的数据最好,在 2012 年至 2021 年之间的 9 年间,我们以大约每年~0.5 个数量级的速度持续提高计算效率。

图14

我们可以测量算法进步:在 2021 年与 2012 年相比,需要多少计算才能训练出具有相同性能的模型?我们看到~每年 0.5 个数量级的算法效率趋势。来源: Erdil and Besiroglu 2022[23] 

这是一件大事:这意味着 4 年后,我们可以用~100 倍更少的计算实现相同的性能(相应地,更多的计算实现更高的性能!)。

不幸的是,由于实验室不公布内部数据,很难衡量过去四年中前沿 LLMs 的算法进步。 EpochAI 有新的工作[24] 复制了他们在 ImageNet 上的结果,并估计 2012 年至 2023 年间 LLMs 的算法效率趋势类似,约为每年 0.5 个数量级(这一估计有较大的误差范围,且不包括一些最近的进展,因为领先实验室停止了算法效率的发布)。

图15

Epoch AI 的估算[25] 的语言建模算法效率。他们的估算表明,我们在 8 年内取得了约 4 个数量级的效率提升。

更直接地看过去 4 年,GPT-2 到 GPT-3 基本上是一个简单的扩展(根据论文[26]),但自 GPT-3 以来有许多公开已知和可推断的改进:

  • 我们可以从 API 成本中推断出收益:【13】
    • GPT-4 发布时,成本与 GPT-3 发布时相当,尽管性能大幅提升【14】。(如果我们做一个简单且过于简化的估算,基于缩放定律,这表明从 GPT-3 到 GPT-4 的有效计算增加中约有一半可能来自算法改进【15】)
    • 自 GPT-4 发布一年以来,OpenAI 对 GPT-4 级模型的价格下降了 6 倍/4 倍

(输入/输出),发布了 GPT-4o。* 最近发布的 Gemini 1.5 Flash 提供了“GPT-3.75 级”到 GPT-4 级的性能【16】,而成本[27]则比原始 GPT-4 低 85 倍/57 倍(输入/输出)。

  • Chinchilla 缩放定律[28] 提供了 3 倍以上(0.5 个数量级以上)的效率提升【17】。
  • Gemini 1.5 Pro 声称具有重大计算效率提升[29](在使用“显著更少”的计算的情况下,超越了 Gemini 1.0 Ultra),其中混合专家(MoE)是一个突出的架构变化。 其他[30] 论文[31] 也[32] 声称[33] 从 MoE 获得了可观的计算倍数。
  • 在架构[34]、数据[35]、训练栈[36]等方面都有许多微调和改进【18】。

综合来看,公开信息表明从 GPT-2 到 GPT-4 的跃升包括 1-2 个数量级的算法效率提升【19】。

图16

在 GPT-4 之后的 4 年里,我们应该预期这一趋势会继续:【20】平均每年 0.5 个数量级的计算效率,即到 2027 年相比 GPT-4 约 2 个数量级的提升。尽管随着我们摘取低垂的果实,计算效率的改进会变得越来越难发现,但 AI 实验室在金钱和人才上的投资在迅速增加【21】。(至少公开推断的推理成本效率并未减缓。)在高端,我们甚至可能看到更多的根本性突破,如 Transformer 那样【22】,带来更大的收益。

综合来看,这表明到 2027 年底,我们应该预期相比 GPT-4 大约 1-3 个数量级的算法效率提升,可能的最佳猜测是约 2 个数量级。

数据壁垒

这一切中有一个潜在的重要变化来源:我们正在耗尽互联网数据。这可能意味着,很快,预训练更大的语言模型在更多抓取的数据上的简单方法可能会遇到严重瓶颈。

前沿模型已经训练了互联网的大部分数据。Llama 3,例如,训练了超过 15 万亿个 token[37]。Common Crawl,一个用于 LLM 训练的互联网大部分数据的转储,是>100 万亿个原始 token,尽管其中很多是垃圾和重复(例如,一个相对简单的去重[38]导致 30 万亿个 token,意味着 Llama 3 已经使用了几乎所有的数据)。此外,对于代码等更具体的领域,token 数量更少,例如公共 github 仓库[39]估计在低万亿个 token。

你可以通过重复数据走得更远,但学术研究[40]发现,重复数据只能带你走这么远,发现 16 次迭代(16 倍重复)后,回报急剧下降到几乎没有。到某个时候,即使有更多的(有效)计算,让你的模型变得更好也会变得更难,因为数据的限制。这不能被低估:我们一直在骑着缩放曲线,骑着语言模型预训练范式的浪潮,如果没有新的方法,这一范式将(至少天真地)耗尽。尽管有巨大的投资,我们也会停滞。

所有实验室据传正在进行巨大的研究赌注,尝试新的算法改进或方法以绕过这一问题。研究人员据说正在尝试许多策略,从合成数据到自我博弈和强化学习方法[41]。业内人士似乎非常看好:Anthropic 的 CEO Dario Amodei 最近在播客中说[42]:“如果你非常天真地看待这一问题,我们距离数据耗尽并不遥远[…] 我的猜测是这不会成为一个阻碍[…] 有很多不同的方法可以做到。”当然,任何研究结果都是专有的,现今不会发布。

除了业内人士的乐观态度,我认为也有一个强烈的直觉理由,为什么应该能找到方法以更好的样本效率训练模型(算法改进让它们从有限的数据中学到更多)。考虑你我如何从一本非常密集的数学教科书中学习:

  • 现代 LLM 在训练过程中所做的,基本上是非常非常快速地浏览教科书,单词飞过,不花太多脑力。
  • 相反,当你我读那本数学教科书时,我们慢慢地读几页;然后在脑海中进行内部对话,与几位学习伙伴讨论这门材料;再读一两页;然后尝试一些练习题,失败,再以不同的方式尝试,获得对这些问题的反馈,直到我们做对一个问题为止;如此反复,直到最终材料“点击”。
  • 如果你我只能像 LLM 那样浏览数学教科书,我们也不会学到太多【23】。
  • 但或许,有方法可以结合人类消化密集数学教科书的方式,让模型从有限的数据中学到更多。在简化的意义上,这种事情——在材料上进行内部对话,与学习伙伴讨论,尝试并失败直到它点击——是许多合成数据/自我博弈/强化学习方法试图做的事情【24】。

旧的训练模型的状态是简单且天真的,但它有效,所以没有人真正努力破解这些样本效率的方法。现在这可能成为更多的限制,我们应该预期所有实验室都会投资数十亿美元并让他们最聪明的头脑来破解它。深度学习中的一个常见模式是,需要很多努力(和许多失败的项目)来搞清楚细节,但最终某种版本的显而易见的简单事情有效。鉴于深度学习在过去十年中设法突破了每一个所谓的障碍,我的基本假设是这里会类似。

此外,破解合成数据等算法赌注实际上似乎可能显著改进模型。这里有一个直觉泵。当前前沿模型如 Llama 3 是用互联网训练的——而互联网主要是垃圾,像电子商务或 SEO 或其他。许多 LLM 在这些垃圾上花费了大部分的训练计算能力,而不是在真正高质量的数据上(例如人们解决困难科学问题的推理链)。想象一下,如果你能用 GPT-4 级别的计算能力训练完全极高质量的数据——它可能会是一个更强大的模型。

回顾 AlphaGo——第一个在围棋游戏中击败世界冠军的 AI 系统,远远早于预期——也是有用的【25】。

  • 在第 1 步,AlphaGo 通过模仿人类专家的围棋游戏进行训练。这为它打下了基础。
  • 在第 2 步,AlphaGo 进行了数百万场自我对弈。这使得它在围棋上超越了人类:记住与李世石对弈中的著名第 37 手,一个非常不寻常但聪明的手法,人类永远不会下这步棋。

为 LLM 开发相当于第 2 步的方法是克服数据壁垒的关键研究问题(而且最终将是超越人类智能的关键)。

所有这些表明,数据限制似乎为未来几年 AI 进展注入了巨大的误差范围。有很大的可能性会停滞(LLM 可能仍然是互联网一样重要的事物,但我们不会达到真正疯狂的 AGI)。但我认为合理地猜测实验室会破解它,并且这样做不仅会继续保持扩展曲线,甚至可能带来模型能力的巨大提升。

顺便提一下,这也意味着我们应该预期未来几年不同实验室之间的差异会比现在更大。直到最近,最先进的技术是公开的,所以每个人基本上都在做同样的事情。(而且新的初创公司或开源项目可以轻松与前沿竞争,因为配方是公开的。)现在,关键的算法思想越来越成为专有的。我预计实验室的方法会更加分化,有些会

比其他进展更快——即使是现在看似在前沿的实验室也可能在数据壁垒上卡住,而其他实验室取得突破,让它们迅速前进。而开源将很难竞争。这肯定会让事情变得有趣。(如果某个实验室破解了它,他们的突破将是 AGI 的关键,超级智能的关键——这是美国最珍贵的秘密之一[43]。)

解锁

最后,是最难量化但同样重要的改进类别:我称之为“解锁”。

想象一下,当被要求解决一个难题时,你必须立即回答你想到的第一个问题。显然,除了最简单的问题,你会很难。但直到最近,我们就是这样让 LLM 解决数学问题的。相反,我们大多数人通过在草稿纸上逐步解决问题,并且能够解决更困难的问题。“思维链”提示为 LLM 解锁了这一点。尽管拥有出色的原始能力,但它们在数学上表现不佳,因为它们被明显地限制了,而需要一个小的算法调整来解锁更大的能力。

在过去几年中,我们在“解锁”模型方面取得了巨大进步。这些是超越仅训练更好的基础模型的算法改进——通常只使用一小部分预训练计算能力——解放了模型的能力:

  • 从人类反馈中进行强化学习(RLHF)。基础模型有惊人的潜在能力【26】,但它们是原始的且难以使用。虽然 RLHF 的流行观念是它仅仅审查脏话,但 RLHF 对于使模型真正有用且具有商业价值是关键的(而不是让模型预测随机的互联网文本,让它们实际应用其能力来尝试回答你的问题!)。这就是 ChatGPT 的魔力——做得很好的 RLHF 使得模型对现实中的人们可用且有用。原始的InstructGPT 论文[44] 对此有一个很好的量化:一个 RLHF 的小模型在人类评分偏好上相当于一个非 RLHF 的>100 倍大的模型。
  • 思维链(CoT)。如前所述。 CoT 在两年前开始被广泛使用[45]并能在数学/推理问题上提供>10 倍的有效计算提升。
  • 脚手架。想象 CoT++:而不是仅仅要求模型解决一个问题,让一个模型制定攻击计划,另一个模型提出一系列可能的解决方案,另一个模型进行批判,等等。例如,在 HumanEval(编程问题)上,简单的脚手架使 GPT-3.5 的表现超过了未脚手架的 GPT-4。在 SWE-Bench(一组解决现实世界软件工程任务的基准)上,GPT-4 只能正确解决~2%,而使用Devin 的代理脚手架[46]则跳跃到 14-23%。(解锁代理才刚刚开始,我将在后文详细讨论。)
  • 工具:想象一下,如果人类不能使用计算器或电脑。我们只是刚刚开始,但 ChatGPT 现在可以使用网页浏览器,运行一些代码,等等。
  • 上下文长度。模型已经从 2k token 上下文(GPT-3)扩展到 32k 上下文(GPT-4 发布)到 1M+上下文(Gemini 1.5 Pro)。这是一个巨大的变化。一个具有例如 100k 相关上下文的较小基础模型可以超过一个较大但只有 4k 相关上下文的模型——更多的上下文实际上是一个大的计算效率提升【27】。更一般地说,上下文是解锁这些模型许多应用的关键:例如,许多编程应用需要理解代码库的大部分才能有效地贡献新的代码;或者,如果你使用模型来帮助你撰写工作中的文档,它需要来自许多相关内部文档和对话的上下文。Gemini 1.5 Pro,具有 1M+token 上下文,甚至能够从头学习一种新语言[47](一种互联网上没有的低资源语言),只需将字典和语法参考资料放在上下文中!
  • 后训练改进。当前的 GPT-4 相比于发布时的 GPT-4 有了显著改进,根据 John Schulman[48]的说法,后训练改进解锁了潜在的模型能力:在推理评估[49]中,它取得了显著进展(例如,MATH 从~50% -> 72%,GPQA 从~40% -> ~50%),在LMSys 排行榜[50]上,它的 ELO 几乎提升了 100 分(相当于 Claude 3 Haiku 和更大 Claude 3 Opus 之间的 ELO 差异,这些模型有约 50 倍的价格差异[51])。

Epoch AI 的一项调查[52]对这些技术的一些,如脚手架、工具使用等,发现这些技术通常在许多基准上带来 5-30 倍的有效计算提升。METR(一个评估模型的组织)在他们的一组代理任务中也发现了非常大的性能提升,通过解锁相同 GPT-4 基础模型的能力:从仅基础模型的 5%,到发布时经过后训练的 GPT-4 的 20%,到今天通过更好的后训练、工具和代理脚手架的近 40%。

图17 通过更好的解除束缚,METR在代理任务上的性能随时间提升。

尽管很难将这些与计算和算法效率统一在一个有效计算的规模上,但显然这些巨大的提升,至少在大致上与计算扩展和算法效率相当。(这也强调了算法进步的中心地位:每年 0.5 个数量级的计算效率,已经相当显著,只是故事的一部分,加上解锁的算法进步,整体上可能是当前趋势的多数收益。)

图18

“解锁”实际上使这些模型变得有用——我认为今天许多商业应用受限于进一步“解锁”的需要。确实,今天的模型仍然非常受限!例如:

  • 它们没有长期记忆。
  • 它们不能使用电脑(它们仍然只有非常有限的工具)。
  • 它们仍然大多在发言前不思考。当你让 ChatGPT 写一篇文章时,这就像期望一个人通过他们的初始意识流写一篇文章【28】。
  • 它们大多只能进行短暂的对话,而不能离开一天或一周,思考一个问题,研究不同的方法,咨询其他人,然后为你写一份更长的报告或提交请求。
  • 它们大多没有个性化给你或你的应用(只是一个带有短提示的通用聊天机器人,而不是拥有你公司和工作的所有相关背景)。

这里的可能性是巨大的,我们正在迅速摘取低垂的果实。这是关键:仅想象“GPT-6 ChatGPT”是完全错误的。随着持续的解锁进展,改进将是相比 GPT-6 + RLHF 的飞跃。到 2027 年,而不是一个聊天机器人,你将拥有类似代理、类似同事的东西。

从聊天机器人到代理合作伙伴

未来几年雄心勃勃的解锁可能是什么样的?我的思考方式是,有三个关键因素:

1. 解决“入职问题”

GPT-4 有足够的智慧来完成许多人的工作,但它有点像一个刚到 5 分钟的聪明新员工:它没有任何相关的背景知识,没有阅读公司文档或 Slack 历史记录,或与团队成员进行过任何对话,也没有花时间了解公司内部代码库。一个聪明的新员工在到达 5 分钟后并不那么有用——但一个月后他们会很有用!看起来应该有可能,例如通过非常长的上下文来“入职”模型,就像我们会对待一个新的人类同事一样。这本身就是一个巨大的解锁。

2. 测试时计算能力过剩(推理/错误校正/系统 II 用于更长时间的问题)

目前,模型基本上只能完成短期任务:你问它们一个问题,它们给你一个答案。但这是非常有限的。大多数人类有用的认知工作是长期的——不仅仅是 5 分钟,而是几小时、几天、几周或几个月。

一个只能在 5 分钟内思考难题的科学家无法取得任何科学突破。

一个只能在被要求时编写单个函数框架代码的软件工程师也不会很有用——软件工程师被分配一个更大的任务,然后制定一个计划,理解代码库或技术工具的相关部分,编写不同的模块并逐步测试,调试错误,搜索可能的解决方案,最终提交一个数周工作的完整请求。等等。

本质上,有一个测试时计算能力过剩。把每个 GPT-4 token 想象成你思考问题时的一个内部对话词汇。每个 GPT-4 token 都很聪明,但目前它只能有效地使用大约数百个 token 来连贯地思考(相当于你在问题或项目上只能花几分钟的内部对话/思考时间)。

如果它能使用数百万个 token 来思考和解决非常困难的问题或更大的项目会怎样?

token数量相当于我在某事上的工作时间…
100s几分钟ChatGPT(我们现在在这里)
1000s半小时+1个数量级测试时计算
10,000s半个工作日+2个数量级
100,000s一个工作周+3个数量级
百万数月+4个数量级

假设一个人以~每分钟 100 个 token 的速度思考并每周工作 40 小时,将 token 转换为在特定问题/项目上人的时间。

即使“每个 token”的智力相同,这也意味着一个聪明的人花几分钟与花几个月在一个问题上的区别。我不知道你怎样,但我在几个月与几分钟内能做到的差距巨大。如果我们能解锁“能够思考和工作几个月时间的模型,而不是几分钟”,这将解锁一个疯狂的能力跳跃。这里有一个巨大的过剩,许多数量级的价值。

目前,模型还不能做到这一点。即使有了最近的长上下文进展,这种更长的上下文主要仅适用于 token 的消费,而不是生产——过一段时间后,模型会偏离轨道或卡住。它还不能独自一人去处理一个问题或项目【29】。

但解锁测试时计算可能只是相对小的“解锁”算法胜利。也许少量的 RL 可以帮助模型学会错误校正(“嗯,这看起来不对,让我再检查一下”),制定计划,搜索可能的解决方案,等等。从某种意义上说,模型已经具备大部分原始能力,只需要再学一些技能来把它们组合起来。

本质上,我们只需要教会模型一种外部循环系统 II【30】,让它推理困难、长期的项目。

如果我们成功教会这个外部循环系统,而不是一个几段文字的短对话回答,想象一下数百万字的流动(比你能阅读的快)模型在思考问题,使用工具,尝试不同的方法,做研究,修改工作,协调他人,并独立完成大项目。

在其他领域,如围棋游戏的 AI 系统中,已经证明【31】你可以使用更多的测试时计算(也称推理时计算)来代替训练计算。

图19

Jones(2021):一个较小的模型可以在围棋游戏中表现得与一个大得多的模型一样好,只要你给它更多的测试时计算(“更多时间思考”)。在这个领域,他们发现一个可以使用~1.2 个数量级更多的计算在测试时得到相当于一个有~1 个数量级更多训练计算的模型的表现。

如果在我们的情况下也存在类似关系,如果我们能解锁+4 个数量级的测试时计算,那可能相当于+3 个数量级的预训练计算,大致相当于 GPT-3 和 GPT-4 之间的跳跃。(即,解决这个“解锁”将等同于一个巨大的数量级扩展。)

3. 使用计算机

这可能是三者中最直接的。目前 ChatGPT 基本上就像一个坐在一个孤立的箱子里,你可以给它发短信的人。虽然早期的解锁改进教会模型使用单个孤立的工具,我预计随着多模态模型,我们很快可以一举完成:我们将简单地允许模型像人类一样使用计算机。

这意味着加入你的 Zoom 会议,在线研究东西,发送和接收消息和电子邮件,阅读共享文档,使用你的应用程序和开发工具,等等。(当然,为了模型在更长期的循环中最大化这一点,这将与解锁测试时计算能力并行进行。)

最终,我预计我们将得到类似于即插即用的远程工作者。一个代理加入你的公司,像新的人类雇员一样入职,在 Slack 上与你和同事交流,使用你的软件,提交请求,并且在给定大项目时,可以独立完成数周的工作。你可能需要比 GPT-4 更好的基础模型来解锁这一点,但可能也不需要那么多——很多的改进在于解决模型仍然明显受限的基本问题。

图20

这一早期的窥探类似于 Devin[53] ,一个早期的原型,旨在解锁模型在创建全自动软件工程师路径上的“代理过剩”/“测试时计算过剩”。我不知道 Devin 在实际中效果如何,这个演示与适当的聊天机器人 → 代理解锁相比仍然非常有限,但它是即将到来的某种东西的有用预告。

顺便说一下,预计解锁的中心地位将导致某种有趣的“音爆”效应,商业应用方面也是如此。在现在和即插即用的远程工作者之间的中间模型将需要大量的工作来改变工作流程和建立基础设施以整合和实现经济价值。即插即用的远程工作者将极大地容易整合——只需,将它们投入到可以远程完成的所有工作中。因此,产生的经济价值跳跃可能是相对不连续的。

未来四年

图21
图22

在 GPT-4 前四年进展驱动因素的估算总结,以及我们应该在 GPT-4 后的四年里期待什么。

综合这些数字,我们应该(大致)预期在 GPT-4 之后的四年里,即到 2027 年底,有另一个 GPT-2 到 GPT-4 级别的飞跃。

  • GPT-2 到 GPT-4 大约是 4.5–6 个数量级的基础有效计算扩展(物理计算和算法效率),加上主要的“解锁”收益(从基础模型到聊天机器人)。
  • 在随后的 4 年中,我们应该预期 3–6 个数量级的基础有效计算扩展(物理计算和算法效率)——大概的最佳猜测是~5 个数量级——加上“解锁”带来的实用性和应用的飞跃(从聊天机器人到代理/即插即用的远程工作者)。

为了让你对这有个感受,假设 GPT-4 训练需要 3 个月。到 2027 年,一个领先的 AI 实验室将能够在一分钟内训练一个 GPT-4 级别的模型。【31】有效计算扩展将是戏剧性的。

这将带我们到哪里?

图23

数量级变化总结。

GPT-2 到 GPT-4 将我们从~学前儿童提升到~聪明的高中生;从几乎无法输出几句连贯句子到通过高中考试并成为有用的编码助手。这是一个疯狂的飞跃。如果是我们将再次覆盖的智能差距,它将带我们到哪里?【32】我们不应该感到惊讶,如果它将我们带到非常非常远的地方。很可能,这将带我们到能超过博士和领域内最优秀专家的模型。

(一个有趣的思考方式是,当前的 AI 进展速度大约是儿童发展的 3 倍速度。你的 3 倍速儿童刚刚高中毕业;它很快就会夺走

你的工作!)

再次强调,关键的是,不要仅仅想象一个极其聪明的 ChatGPT:解锁收益意味着这更像是一个即插即用的远程工作者,一个能推理、计划、错误校正、了解你和你的公司所有事情并能独立工作数周的智能代理。

我们正朝着 2027 年实现 AGI 前进。这些 AI 系统基本上将能够自动化几乎所有的认知工作(即:所有可以远程完成的工作)。

需要明确的是,误差范围很大。进展可能会因数据耗尽而停滞,如果突破数据壁垒所需的算法突破比预期更难。也许解锁并未走得太远,我们被困在仅仅是专家聊天机器人,而不是专家同事。也许十年的趋势线被打破,或深度学习的扩展真的遇到了瓶颈。(或者一个算法突破,甚至简单的解锁,解锁测试时计算能力过剩,可能是一个范式转变,加速进程,甚至更早实现 AGI。)

无论如何,我们正在快速通过数量级变化,并且只需要简单的趋势线外推,就可以极其认真地看待 2027 年实现 AGI——真正的 AGI——的可能性。

似乎现在很多人都在重新定义 AGI,只是一个非常好的聊天机器人或其他。我指的是一个可以完全自动化我或我朋友工作的 AI 系统,能够完全完成 AI 研究员或工程师的工作。也许某些领域,如机器人技术,可能需要更长时间来解决默认情况下。而社会推出,例如在医疗或法律专业中,可能会因社会选择或法规而减缓。但一旦模型能够自动化 AI 研究本身,那就足够了——足以启动强烈的反馈循环——我们可以非常迅速地取得进一步进展,自动化的 AI 工程师们自己解决所有剩余的瓶颈,完全自动化一切。特别是,数百万自动化研究人员非常有可能在一年内压缩十年的进一步算法进展。AGI 只是即将到来的超级智能的一个小小预览。

无论如何,不要指望快速进步的步伐减缓。趋势线看起来无害,但其含义是强烈的。和之前的每一代模型一样,每一代新模型都会让大多数旁观者目瞪口呆;当他们看到模型解决需要博士数天时间的极其困难的科学问题时,他们会难以置信,当它们在你的电脑上快速完成你的工作时,当它们从头编写数百万行代码时,每年或两年这些模型产生的经济价值会 10 倍增长。忘掉科幻小说,数一下算力数量级变化:这是我们应该期望的。AGI 不再是一个遥远的幻想。扩展简单的深度学习技术已经有效,模型只是想学习,我们将在 2027 年底前再做一次 100,000 倍以上。它们很快就会比我们更聪明。

图24

GPT-4 只是个开始——四年后我们将在哪里?不要低估深度学习进步的快速步伐(如 GAN 进步[54]所示)。


附录。数量级变化竞赛:这是一个关键的十年

我曾经对 AGI 的短期时间线持怀疑态度。一个原因是,似乎不合理地将这么多 AGI 概率集中在这个十年上(这似乎是一个经典的谬误,认为“哦,我们如此特别”)。我认为我们应该对实现 AGI 的时间保持不确定性,这应该导致对 AGI 何时可能到来的概率分布更加“分散”。

然而,我改变了主意:关键的是,我们对实现 AGI 所需的东西的不确定性应该是在数量级(有效计算)上,而不是在年份上。

我们在这个十年里快速通过数量级变化。即使在摩尔定律的鼎盛时期,它也只是每十年 1–1.5 个数量级。我估计我们将在 4 年内做到~5 个数量级,并且在整个十年内超过~10 个数量级。

图25

我们在这个十年里快速通过数量级变化;到 2030 年代初之后,我们将面临缓慢的进展。

本质上,我们正在经历一个巨大的规模扩展,收获这个十年的一次性收益,之后数量级变化的进展将缓慢数倍。如果这次规模扩展不能在未来 5-10 年内带我们到 AGI,它可能还需要很长时间。

  • 支出规模扩展:在一个模型上花费百万美元曾经是惊人的;到十年末,我们可能会有1000 亿美元或 1 万亿级集群[55]。超越这一点将变得困难;这已经基本上是可行的极限(无论是大企业能负担的,甚至只是作为 GDP 的一部分)。此后,我们只有每年 2%的实际 GDP 增长趋势来增加这一点。
  • 硬件增益:AI 硬件的改进速度远快于摩尔定律。这是因为我们一直在为 AI 工作负载专门设计芯片。例如,我们从 CPU 转向 GPU;适应变换器的芯片;并且我们降低了精度数格式,从传统超算的 fp64/fp32 到 H100 上的 fp8。这些都是巨大的收益,但到十年末我们将可能拥有完全专门化的 AI 芯片,而没有更多超越摩尔定律的收益。
  • 算法进展:在未来十年里,AI 实验室将在算法研发上投资数十亿,世界上所有最聪明的人将致力于此;从小的效率到新的范式,我们将摘取大量的低垂果实。我们可能不会达到任何硬性限制(尽管“解锁”可能是有限的),但至少改进的步伐应该会放缓,因为快速增长(在 $ 和人力资本投资方面)必然会放缓(例如,大部分聪明的 STEM 人才已经在从事 AI)。(不过,这个预测是不确定的,这是对 2030 年代数量级变化的不确定性的主要来源。)

综合来看,这意味着我们在未来十年内通过的数量级变化将比此后多得多。也许这足够了——我们很快会实现 AGI——否则我们可能会经历一段漫长的、缓慢的进展。你我可以合理地对 AGI 的中位数时间进行不同的猜测,取决于我们认为实现 AGI 有多困难——但鉴于我们现在正在快速通过数量级变化,显然你的AGI 年应该是这个十年或类似时间。

图26 Matthew Barnett对此有一个很好的相关可视化,只考虑计算和生物学界限。

相关资源

  1. 从 SSC[56]: Janelle Shane 让 GPT-2 列出它最喜欢的十种动物:

    • 背上有白色伤疤的斑马
    • 令人不安的蜘蛛和章鱼
    • 希望是黑色的大叶青蛙
    • 有鳞片的玄凤鹦鹉
    • 翅膀垂在脸部约四英寸处并在青蛙身上有心形纹身的剃刀鸟
    • 可以盲目、切割并生吃的交织四面体鸡蛇
    • 生活在阳光下的黑白沙漠鳄鱼
    • 斑马和许多其他豌豆虫
    • 提示:我的十种最喜欢的动物是:1.
    • 我的十种最喜欢的动物是:
    • 从 GPT-2 论文[57],第3.6节。

    • 我指的是笨重的旧版 GPT-3,而不是你可能熟悉的经过显著改进的 GPT-3.5。

    • 这些测试并未包含在训练集里。AI 实验室付出了真正的努力来确保这些评估不被污染,因为他们需要可靠的测量来进行科学研究。最近 ScaleAI 的一项分析[58] 确认,领先的实验室并没有过度拟合基准测试(尽管一些较小的 LLM 开发者可能在调整他们的数字)。

    • 在原始论文中指出:“我们还对人类进行了 MATH 测试,发现一名不特别喜欢数学的计算机科学博士生在 MATH 上获得了大约 40% 的成绩,而一名三次获得 IMO 金牌的选手获得了 90%,这表明 MATH 对人类来说也是具有挑战性的。”

    • 一位共同作者指出[59]:“当我们的团队首次发布 MATH 数据集时,至少有一位 [ML 研究同事] 告诉我们这是一个无意义的数据集,因为它超出了 ML 模型可以完成的范围(实际上,我自己也有些担心这一点)。” 告诉我们这是一个无意义的数据集,因为它超出了 ML 模型可以完成的范围(实际上,我自己也有些担心这一点)。”

    • 这是 Yann LeCun 在 2022 年的预测指出[60],即使是 GPT-5000 也无法理解现实世界中的物理交互;GPT-4 在一年后显然轻松完成了这一点。

      这是 Gary Marcus 在 GPT-2 后的预测被 GPT-3 解决[61],以及他在 GPT-3 后的预测被 GPT-4 解决[62]。

      这是 Bryan Caplan 教授输掉[63] 了他首次公开的赌注(此前他有一个完美的公开赌注记录)。在 2023 年 1 月,GPT-3.5 在他的经济学期中考试中得了 D 后,Caplan 教授与 Matthew Barnett 打赌,到 2029 年不会有 AI 能在他的经济学期中考试中得 A。然而仅仅两个月后,GPT-4 出现并立即在他的期中考试中得了 A(而且是班级中最高的分数之一)。

    • 在钻石集,多数投票[64] 模型尝试 32 次时使用链式思考。

    • 值得注意的是,这些趋势线的持续性是多么一致。结合原始的 缩放定律论文[65] 与自那以来关于计算和计算效率缩放的一些估计,意味着超过 15 个数量级(超过 1,000,000,000,000,000 倍的有效计算)的持续缩放趋势!

    • 一个常见的误解是缩放只适用于困惑度损失,但我们在基准测试下游性能上也看到非常清晰和一致的缩放行为。通常只是找到合适的对数-对数图的问题。例如,在 GPT-4 博客文章中,他们展示了在计算问题上超过 6 个数量级(1,000,000 倍)计算的性能一致缩放行为,使用 MLPR(平均对数通过率)。“涌现能力是幻觉吗?”论文[66] 也提出了类似的观点;通过选择合适的指标,几乎总是能在下游任务上找到一致的趋势。
      更普遍地说,“缩放假设”的定性观察——模型能力与规模的非常清晰的趋势——早于损失缩放曲线;“缩放定律”的工作只是对此进行了正式的测量。

    • 1. Gemini 1.5 Flash 在 MATH 上得分 54.9%,成本为每百万个 token 0.35/1.05(输入/输出)。GPT-4 在发布前在 MATH 上得分 42.5%,在 2023 年初得分 52.9%,成本为每百万个 token30/60(输入/输出);比 Gemini 1.5 Flash 贵 85 倍/57 倍(输入/输出)。保守估计,我在上面使用了 30 倍的成本降低估算(考虑到 Gemini 1.5 Flash 可能使用了更多的 token 来推理问题)。

      2. Minerva540B 在 MATH 上得分 50.3%,使用 64 个样本的多数投票。一位知识渊博的朋友估计这里的基本模型可能比 GPT-4 昂贵 2-3 倍。然而,快速检查发现 Minerva 似乎每个答案使用的 token 略少。更重要的是,Minerva 需要 64 个样本才能达到这种性能,天真地认为这意味着如果你通过推理 API 运行它,成本将增加 64 倍。实际上,在运行评估时可以缓存提示 token;考虑到少量提示,提示 token 可能占成本的大部分,即使考虑到输出 token。假设输出 token 是获取单个样本成本的三分之一,这将意味着通过多数投票的成本增加约 20 倍。为了保守起见,我在上面使用了大约 20 倍的成本降低估算(即使通过 API 运行推理的天真成本降低会更大)。
    • 尽管这些是推理效率(而不一定是训练效率),并且在某种程度上会反映推理特定的优化,但a)它们表明巨大的算法进步是可能的并且正在发生,b)通常情况下,算法改进既是训练效率的提升也是推理效率的提升,例如通过减少必要的参数数量。

    • GPT-3[67]: 每百万个 token $60,GPT-4[68]: 每百万个输入 token 30?????60。

    • Chinchilla 缩放定律表明应将参数数量和数据等比例缩放。也就是说,参数数量的增长是有效训练计算增长的“OOMs”的一半。同时,参数数量直观地与推理成本大致成正比。其他条件相同,恒定的推理成本意味着有效计算增长的一半“OOMs”被算法获胜所抵消。

      也就是说,为了明确起见,这是一个非常天真的计算(仅用于粗略说明),在各个方面都是错误的。可能存在推理特定的优化(不会转化为训练效率);可能存在不减少参数数量的训练效率(因此不会转化为推理效率);等等。

    • Gemini 1.5 Flash 在 LMSys(一个聊天机器人排行榜)上与 GPT-4 排名相似(高于原始 GPT-4,低于更新版本的 GPT-4),并且在 MATH 和 GPQA(测量推理的评估)上的表现与原始 GPT-4 类似,而在 MMLU(一个更重知识测量的评估)中位于 GPT-3.5 和 GPT-4 之间。

    • 在 ~GPT-3 规模[69],在更大规模时增加了 3 倍以上。

    • 例如,这篇 论文[70] 包含对比传统 GPT-3 风格的 vanilla Transformer 和多年来发布的各种简单架构和训练方法变化(如 RMSnorms 代替 layernorm,不同的 positional embeddings,SwiGlu 激活,AdamW 优化器代替 Adam 等),他们称之为“Transformer++”,在小规模时至少有 6 倍的提升。

    • 如果我们采取 0.5 OOMs/年的趋势,并且 GPT-2 和 GPT-4 之间间隔了 4 年,那将是 2 个 OOMs。然而,GPT-2 到 GPT-3 是一个简单的扩展(在例如 Transformer 的大规模收益之后),而 OpenAI 声称 GPT-4 预训练在 2022 年完成[71],这可能意味着我们在这里看到的算法进展大约为 2 年。1 个 OOM 的算法效率似乎是保守的下限。

    • 至少,鉴于超过十年的一致算法改进,证明这一切突然停止的责任将落在那些认为它会停止的人身上!

    • 计算效率提高 3 倍的经济回报将以数百亿美元甚至更多来衡量,考虑到集群成本。

    • 大致像是一个 ~10 倍增益[72]。

    • 反复阅读同一本教科书可能会导致记忆,而不是理解。我认为这就是许多文字工作者通过数学课程的方式!

    • 我发现另一种思考方式很有趣:在预训练和上下文学习之间有一个“缺失的中间”。上下文学习是令人难以置信的(并且在样本效率上与人类竞争)。例如,Gemini 1.5 Pro 论文[73] 讨论了在上下文中给模型提供有关卡拉曼语(约 200 人使用,互联网上几乎不存在)的教材(一本教科书、一本词典)——模型学会了从英语到卡拉曼语的翻译,达到了人类水平!在上下文中,模型能够像人类一样从教科书中学习(并且比仅仅将那本教科书扔进预训练要好得多)。

      当人类从教科书中学习时,他们能够通过练习将短期记忆/学习提炼成长期记忆/长期技能;然而,我们没有相应的方式将上下文学习“回到权重”。合成数据/自我博弈/强化学习等正在尝试解决这一问题:让模型自行学习,然后思考并练习所学内容,将这种学习提炼回权重中。

    • 另见 Andrej Karpathy 在 这里[74] 讨论这一点的演讲。

    • 这就是无监督学习的魔力,在某种意义上:为了更好地预测下一个 token,让困惑度下降,模型学习了令人难以置信的丰富内部表示,从(著名的)情感到复杂的世界模型。但,就现成的来说,它们被束缚住了:它们仅仅使用了这些令人难以置信的内部表示来预测随机互联网文本中的下一个 token,而不是以最佳方式应用它们来实际尝试解决你的问题。

    • 见 更新后的 Gemini 1.5 白皮书[75] 的图 7,比较了 Gemini 1.5 Pro 和 Gemini 1.5 Flash(一个更便宜且可能更小的模型)的困惑度与上下文。

    • 不过,人们正在努力解决这个问题!

    • 这很有道理——为什么它会学到更长时间范围的推理和错误纠正的技能?互联网上几乎没有数据以“我完成一个项目过程中一个月内所有相关步骤的完整内心独白、推理”的形式存在。解锁这一能力将需要一种新的训练方法,使其学习这些额外的技能。

      或者用 Gwern 的话来说(私人通信):“‘大脑如银河般庞大,他们让我做什么?预测基准测试上的拼写错误答案!’ 忧郁的神经网络 Marvin 哀叹道。”

    • 系统 I 与系统 II 是思考 LLM 当前能力(包括其局限性和愚蠢错误)以及 RL 和解锁可能性的一种有用方式。这样想:当你开车时,大多数时候你都是在自动驾驶模式(系统 I,模型现在主要做的事情)。但当你遇到复杂的施工区或新的交叉路口时,你可能会让副驾驶暂停对话片刻,思考并解决发生的情况。如果你被迫只使用系统 I(更接近今天的模型),你会遇到很多麻烦。创建系统 II 推理循环的能力是一个核心解锁。

    • 基于上面描述的关于物理计算和算法效率扩展的最佳猜测假设,并简化了并行性考虑(实际上,它可能看起来更像是“一天内 1440(60*24)个 GPT-4 级别的模型”或类似的)。

    • 当然,我们今天拥有的任何基准都会被饱和。但这并不说明什么;这主要反映了制造足够难的基准的难度。


    参考链接

    [1]

    Dario Amodei: https://www.dwarkeshpatel.com/p/dario-amodei

    [2]

    一直很安静: https://x.com/leopoldasch/status/1768868127138549841

    [3]

    像人类一样对话的机器: https://openai.com/index/hello-gpt-4o/

    [4]

    它生成的: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

    [5]

    示例: https://openai.com/index/better-language-models/

    [6]

    简单的文案: https://ai-copysmith.com/

    [7]

    示例: https://gwern.net/gpt-3

    [8]

    AGI的火花: https://arxiv.org/abs/2303.12712

    [9]

    在这里: https://x.com/leopoldasch/status/1638848850516672513?s=20

    [10]

    我们世界的数据https://ourworldindata.org/grapher/test-scores-ai-capabilities-relative-human-performance?country=Handwriting+recognition~Speech+recognition~Image+recognition~Reading+comprehension~Language+understanding~Predictive+reasoning~Code+generation~Complex+reasoning~General+knowledge+tests~Nuanced+language+interpretation~Math+problem-solving~Reading+comprehension+with+unanswerable+questions

    [11]

    MMLU: https://arxiv.org/abs/2009.03300

    [12]

    成绩: https://arxiv.org/pdf/2303.08774

    [13]

    预测: https://bounded-regret.ghost.io/ai-forecasting-one-year-in/

    [14]

    MATH基准: https://arxiv.org/pdf/2103.03874

    [15]

    为了在数学问题解决上取得更多进展,我们可能需要更广泛研究界的新的算法突破”——他们认为需要根本性的新的突破来解决MATH。对[ML研究人员的调查预测: https://bounded-regret.ghost.io/ai-forecasting-one-year-in/

    [16]

    50%准确率: https://research.google/blog/minerva-solving-quantitative-reasoning-problems-with-language-models/

    [17]

    MATH基本上被解决了: https://x.com/bneyshabur/status/1792304689335480511

    [18]

    GPQA: https://arxiv.org/abs/2311.12022

    [19]

    Epoch AI: https://epochai.org/data/epochdb/table

    [20]

    Epoch AIhttps://epochai.org/data/epochdb

    [21]

    竞逐万亿级集群: https://docs.google.com/document/d/1rWU00M9JGybX_EtYoKxAwXnoMbxhQv1v0vaCWRNc5iw/edit#bookmark=id.ix3esf7i3p5z

    [22]

    传言: https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer

    [23]

    Erdil and Besiroglu 2022https://arxiv.org/abs/2212.05153

    [24]

    EpochAI有新的工作: https://arxiv.org/pdf/2403.05812

    [25]

    Epoch AI的估算: https://arxiv.org/pdf/2403.05812

    [26]

    论文: https://arxiv.org/abs/2005.14165

    [27]

    成本: https://ai.google.dev/pricing

    [28]

    Chinchilla缩放定律: https://arxiv.org/abs/2203.15556

    [29]

    重大计算效率提升: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

    [30]

    其他: https://x.com/deepseek_ai/status/1745304852211839163?s=20

    [31]

    论文: https://arxiv.org/pdf/2101.03961

    [32]

    也: https://arxiv.org/pdf/2202.08906

    [33]

    声称: https://arxiv.org/pdf/2112.06905

    [34]

    架构: https://arxiv.org/pdf/2307.08691

    [35]

    数据: https://arxiv.org/pdf/2306.01116

    [36]

    训练栈: https://arxiv.org/pdf/1909.08053

    [37]

    超过15万亿个token: https://ai.meta.com/blog/meta-llama-3/

    [38]

    相对简单的去重: https://www.together.ai/blog/redpajama-data-v2

    [39]

    公共github仓库: https://arxiv.org/pdf/2211.04325

    [40]

    学术研究: https://arxiv.org/abs/2305.16264

    [41]

    合成数据到自我博弈和强化学习方法: https://www.dwarkeshpatel.com/p/will-scaling-work

    [42]

    最近在播客中说: https://www.dwarkeshpatel.com/p/dario-amodei

    [43]

    最珍贵的秘密之一: https://situational-awareness.ai/lock-down-the-labs/

    [44]

    InstructGPT论文: https://openai.com/research/instruction-following

    [45]

    CoT在两年前开始被广泛使用: https://arxiv.org/abs/2201.11903

    [46]

    Devin的代理脚手架: https://x.com/cognition_labs/status/1768716551056728233

    [47]

    从头学习一种新语言: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

    [48]

    根据John Schulman: https://www.dwarkeshpatel.com/p/john-schulman

    [49]

    推理评估: https://x.com/polynoamial/status/1778584064343388179

    [50]

    LMSys排行榜: https://chat.lmsys.org/?leaderboard

    [51]

    价格差异: https://www.anthropic.com/api

    [52]

    Epoch AI的一项调查: https://epochai.org/blog/ai-capabilities-can-be-significantly-improved-without-expensive-retraining

    [53]

    Devinhttps://www.youtube.com/watch?v=fjHtjT7GO1c

    [54]

    _GAN进步: https://twitter.com/goodfellow_ian/status/1084973596236144640/photo/1

    [55]

    1000亿美元或1万亿级集群: https://situational-awareness.ai/racing-to-the-trillion-dollar-cluster/

    [56]

    SSC: https://slatestarcodex.com/2019/02/19/gpt-2-as-step-toward-general-intelligence/

    [57]

    GPT-2 论文: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

    [58]

    ScaleAI 的一项分析: https://x.com/alexandr_wang/status/1785888203943161970

    [59]

    指出: https://bounded-regret.ghost.io/ai-forecasting-one-year-in/

    [60]

    指出: https://x.com/YaBoyFathoM/status/1659516423540965378

    [61]

    被 GPT-3 解决: https://www.astralcodexten.com/p/my-bet-ai-size-solves-flubs

    [62]

    被 GPT-4 解决: https://www.lesswrong.com/posts/cGbEtNbxACJpqoP4x/gpt-4-solves-gary-marcus-induced-flubs

    [63]

    输掉: https://twitter.com/finmoorhouse/status/1638221410328797186?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1638221410328797186%7Ctwgr%5E30fcf9cb4b7ac2403b9fbf482b142b6598405006%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.redditmedia.com%2Fmediaembed%2F11xp2dz%2F%3Fresponsive%3Dtrueis_nightmode%3Dfalse

    [64]

    钻石集,多数投票: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

    [65]

    缩放定律论文: https://arxiv.org/pdf/2001.08361

    [66]

    论文: https://arxiv.org/pdf/2304.15004

    [67]

    GPT-3: https://the-decoder.com/openai-cuts-prices-for-gpt-3-by-two-thirds/

    [68]

    GPT-4: https://openai.com/pricing

    [69]

    规模: https://www.databricks.com/blog/gpt-3-quality-for-500k

    [70]

    论文: https://arxiv.org/pdf/2312.00752

    [71]

    GPT-4 预训练在 2022 年完成: https://cdn.openai.com/papers/gpt-4.pdf

    [72]

    ~10 倍增益: https://twitter.com/tamaybes/status/1767589514984493537

    [73]

    Gemini 1.5 Pro 论文: https://arxiv.org/pdf/2403.05530

    [74]

    这里: https://youtu.be/zjkBMFhNj_g?si=g1Oa-KJitdCPHj_g&t=2284

    [75]

    更新后的 Gemini 1.5 白皮书: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

    chatgpt plus(GPT4)代充值

    本文链接:https://hengqin123.com/chatgpt_577.html

    chat gpt 充值支持的信用卡chatgpt在电脑怎么下载和注册注册chatgpt 教程ChatGPT充值gpt4ogpt4o openaichatgpt注册好了之后如何使用gpt4和gpt4ogpt4o检测情绪gpt4o怎么用

    相关文章