GPT-4 只是个开始——四年后我们将在哪里？不要低估深度学习进步的快速步伐，到 2027 年实现 AGI 是非常有可能的

chatgpt2024-06-05 12:06:2266

先做个广告：如需代充值GP4会员及购买GPT帐号，请添加站长客服微信：gptchongzhi

全文目录

过去四年

GPT-2 到 GPT-4
深度学习趋势

算力数量级变化

从聊天机器人到代理合作
数据壁垒
计算能力
算法效率
解锁

未来四年

附录：数量级变化竞赛：这是一个关键的十年

推荐使用ChatGPT中文版，国内可直接访问：https://ai.gpt86.top

看。模型，它们只是想学习。你必须理解这一点。模型，它们只是想学习。
Ilya Sutskever（约 2015 年，from Dario Amodei[1])

GPT-4 的能力震惊了许多人：一个能写代码和论文的 AI 系统，能推理复杂的数学问题并通过大学考试。几年前，大多数人认为这些是难以攻克的壁垒。

GPT-2 到 GPT-4 在 4 年内让 AI 从 学前儿童水平提升到聪明的高中生水平。根据计算能力的趋势（~每年 0.5 个数量级）、算法效率（~每年 0.5 个数量级）和“解锁”收益（从聊天机器人到代理），我们应该预期到 2027 年将有另一次从学前儿童到高中生水平的质的飞跃。

但 GPT-4 只是十年深度学习飞速进步的延续。十年前，模型几乎不能识别猫狗的简单图像；四年前，GPT-2 几乎不能拼凑出半合理的句子。现在我们正在迅速达到所有我们能想出的基准。然而，这种戏剧性的进步只是深度学习规模扩展的持续趋势的结果。

早就有人看到了这一点。他们被嘲笑，但他们只是信任了趋势线。这些趋势线是强劲的，而且他们是对的。模型，它们只是想学习；你扩大规模，它们就学得更多。

本文提出以下主张： 到 2027 年，模型能够完成 AI 研究员/工程师的工作的可能性非常大。 这不需要相信科幻小说；只需要相信图表上的直线。

根据本文讨论的公共估计，过去和未来有效计算能力（包括物理计算和算法效率）的粗略估计。随着我们扩大模型，它们变得越来越聪明，通过“算力数量级变化”计数我们可以大致了解未来（近期）我们应该期望的模型智能水平。（该图仅显示基础模型的扩展；未显示“解锁”部分。）

在本文中，将简单地“算力数量级变化”计数（OOM = 数量级，10 倍=1 数量级）：查看 1）计算能力、2）算法效率（我们可以将其视为增加“有效计算”的算法进展）和 3）“解锁”收益（修复模型默认的明显限制，解锁潜在能力并赋予其工具，导致实用性的飞跃）中的趋势。我们追踪 GPT-4 之前四年的增长，以及之后四年的预期增长，直到 2027 年底。鉴于深度学习在每一个有效计算数量级上的持续改进，我们可以用这个来预测未来的进展。

公开来看，自 GPT-4 发布以来的一年里情况一直很安静[2]，因为下一代模型一直在“烤炉”里——导致一些人宣布停滞不前并认为深度学习遇到了瓶颈【1】。但通过计数算力数量级变化，我们可以窥见我们实际上应该期待什么。

结论很简单。GPT-2 到 GPT-4——从偶尔能拼凑出几句连贯句子的模型，到能通过高中考试的模型——并不是一次性收益。我们正在迅速通过计数数量级变化，数字表明我们应该在四年内预期另一个~100,000 倍的有效计算规模扩展——导致另一个 GPT-2 到 GPT-4 级别的质的飞跃。此外，关键的是，这不仅意味着更好的聊天机器人；通过“解锁”收益，我们将从聊天机器人转向代理，从工具转变为类似于远程工作者的替代物。

虽然推断很简单，但含义却是惊人的。另一次这样的飞跃很可能会将我们带到 AGI，即智能如博士或专家的模型，可以作为同事与我们一起工作。或许最重要的是，如果这些 AI 系统能够自动化 AI 研究本身，那将启动强烈的反馈循环。

即使现在，几乎没有人把这些因素纳入考虑。但 AI 的情境意识其实并不难，只要你退一步看看趋势。如果你一直对 AI 能力感到惊讶，那就先数一下算力数量级的变化吧。

过去四年

我们现在有了可以基本上像人类一样对话的机器[3]。这对人类适应能力的非凡证明是，这似乎很正常，我们已经习惯了进步的速度。但值得退一步看看过去几年的进步。

GPT-2 到 GPT-4

这里需要提醒你，在 GPT-4 前的约 4 年里我们取得了多大进步。

GPT-2（2019 年）~ 学前儿童：“哇，它可以拼凑出几句合理的句子。”一个关于安第斯山脉独角兽的半连贯故事的非常精选的示例它生成的[4]在当时令人印象深刻。然而，GPT-2 几乎不能数到 5 而不出错；【2】在总结一篇文章时，它仅仅略微优于从文章中随机选择的 3 个句子【3】。

GPT-2 在当时被认为令人印象深刻的一些示例[5]。左：GPT-2 在非常基本的阅读理解问题上做得还可以。右：在一个精心挑选的样本中（10 次尝试中最好的一次），GPT-2 能写出一段关于南北战争的半连贯段落。

将 AI 能力与人类智力进行比较是困难且有缺陷的，但我认为这里的类比是有意义的，即使它非常不完美。GPT-2 因其语言掌握能力和偶尔生成半连贯段落或偶尔正确回答简单事实问题的能力而令人震惊。这正是让学前儿童感到印象深刻的。

GPT-3（2020 年）【4】~ 小学水平：“哇，经过一些少量示例，它能做一些简单有用的任务。”它开始更加一致地生成多个段落，并且能纠正语法和进行一些非常基本的算术。这是第一次，它在一些狭窄的领域内也具有商业价值：例如，GPT-3 可以生成简单的文案[6]用于 SEO 和营销。

GPT-3 在当时被认为令人印象深刻的一些示例[7]。上：在简单指令后，GPT-3 能用一个新造的词语造句。左下：GPT-3 可以进行丰富的故事创作。右下：GPT-3 能生成一些非常简单的代码。

再次强调，这种比较是不完美的，但 GPT-3 给人留下深刻印象的原因或许类似于小学水平的表现：它写了一些基础的诗歌，能讲更丰富且连贯的故事，能开始进行初步的编程，能相对可靠地从简单指令和示范中学习，等等。

GPT-4（2023 年）~ 聪明的高中生：“哇，它能写相当复杂的代码并迭代调试，它能智能且复杂地写关于复杂主题的文章，能推理复杂的高中竞赛数学题，能在我们给出的任何测试中击败绝大多数高中生，等等。”从代码到数学再到费米估算，它能思考和推理。GPT-4 现在在我日常任务中很有用，从帮助写代码到修订草稿。

人们在 GPT-4 发布时认为其令人印象深刻的一些内容，摘自“AGI 的火花[8]”论文。上：它编写非常复杂的代码（生成中间显示的图表）并能推理非平凡的数学问题。左下：解决 AP 数学问题。右下：解决相当复杂的编程问题。更多关于 GPT-4 能力探索的有趣摘录在这里[9]。

在从 AP 考试到 SAT 的所有考试中，GPT-4 的成绩都优于大多数高中生。

当然，即使是 GPT-4 在某些任务上仍然不够完美；在某些任务上它远优于聪明的高中生，而在其他任务上则尚未达标。不过，我倾向于认为这些限制大多归结于模型仍然存在的明显限制，将在后文详细讨论【解锁】。原始的智能（大部分）在那里，即使模型仍然受到人为限制；解锁模型在各个应用中充分发挥这种原始智能还需要额外的工作。

仅四年的进步。你在这条线上在哪儿？

深度学习趋势

过去十年中深度学习的进展速度简直令人难以置信。仅仅十年前，深度学习系统能够识别简单图像就已经是革命性的。如今，我们不断尝试提出新的、更难的测试，但每一个新的基准很快就被攻克。过去需要几十年才能攻克的基准，现在感觉像是几个月。

深度学习系统在许多领域迅速达到或超过人类水平。图表： 我们世界的数据[10]

我们实际上快没有基准可以用了。举个例子，Dan 和 Collin 在 2020 年创建了一个名为MMLU[11]的基准。他们希望最终能创建一个经得起时间考验的基准，相当于我们给高中和大学生的最难考试。仅仅三年后，它基本上被解决了：像 GPT-4 和 Gemini 这样的模型得分约为 90%。

更广泛地说，GPT-4 几乎破解了所有标准的高中和大学能力测试【5】。（而且从 GPT-3.5 到 GPT-4 的一年里，我们往往从远低于人类中位水平到达了人类范围的顶端。）

GPT-4 在标准化考试中的成绩[12]。注意 GPT-3.5 到 GPT-4 在人类百分位数上的巨大飞跃，通常从远低于人类中位数到人类范围的顶端。（这还是 GPT-3.5，一个比 GPT-4 早不到一年的相对近期模型，而不是我们之前讨论的笨拙的小学水平的 GPT-3！）

灰色：专业人士对 2022 年 6 月 MATH 基准（来自高中数学竞赛的难题）表现的预测[13]。红星：到 2022 年 6 月的实际最新性能，远远超过预测的上限。中位数 ML 研究人员甚至更悲观【6】。

或者考虑MATH 基准[14]，这是来自高中数学竞赛的一组难题【7】。该基准在 2021 年发布时，最好的模型只能解决约 5%的问题。而原始论文指出：“此外，我们发现如果扩展趋势继续下去，仅仅增加预算和模型参数将难以实现强大的数学推理 […]。为了在数学问题解决上取得更多进展，我们可能需要更广泛研究界的新的算法突破”——他们认为需要根本性的新的突破来解决 MATH。对ML 研究人员的调查预测[15]未来几年会有最小的进展【8】；然而，仅仅一年内（到 2022 年中），最好的模型从~5%提高到50%准确率[16];现在，MATH 基本上被解决了[17]，最新性能超过 90%。

一次又一次，年复一年，怀疑论者声称“深度学习无法做到 X”，但很快被证明是错误的【9】。如果我们从过去十年的 AI 中学到了一件事，那就是永远不要对深度学习下赌注。

现在最难解决的基准是类似GPQA[18]这样的测试，一组博士级别的生物、化学和物理问题。许多问题像天书一样，即使是其他科学领域的博士花费 30 多分钟在谷歌上查询也几乎无法超过随机猜测的水平。Claude 3 Opus 目前得分约为 60%，【10】相比之下领域内博士得分约为 80%——预计这个基准也将在下一代或两代模型中被攻克。

一些 GPQA 问题示例。模型已经我们在这方面做得更好了，我们可能很快就会达到专家博士级别的表现…

这是如何发生的？深度学习的魔力在于它就是有效——尽管每一步都有反对者，但趋势线一直非常一致。

计算能力扩展的效果，以 OpenAI Sora的示例为例【11】。

每一个有效计算的数量级，模型都在可预测的、可靠地变得更好。【12】如果我们能计算算力数量级变化，我们就可以（大致、定性地）推断能力的提升。【13】这就是一些先见之明的人看到了 GPT-4 到来的原因。

我们可以将 GPT-2 到 GPT-4 的进步分解为三类规模扩展：

计算能力：我们在训练这些模型时使用了更大的计算机。
算法效率：算法进展持续，这些进展中的许多起到“计算倍增器”的作用，我们可以将其放在一个统一的增长有效计算的规模上。
“解锁”收益：默认情况下，模型学到了很多惊人的原始能力，但它们在各种愚蠢的方式上被限制了，限制了其实际价值。通过简单的算法改进，如从人类反馈中进行强化学习（RLHF）、思维链（CoT）、工具和脚手架，我们可以解锁显著的潜在能力。

我们可以在这些轴线上数一下“算力数量级变化”：即在有效计算单位中追踪每个方面的规模扩展。3 倍是 0.5 个数量级；10 倍是 1 个数量级；30 倍是 1.5 个数量级；100 倍是 2 个数量级；依此类推。我们还可以看看我们在 GPT-4 的基础上，预计 2023 年到 2027 年的情况。

下面会一一介绍，但结论很清楚：我们正在迅速通过数量级变化。在数据壁垒中有潜在的阻力，下面会讨论——但总体来看，我们应该期待另一个在 GPT-4 基础上的 GPT-2 到 GPT-4 级别的飞跃，在 2027 年。

计算能力

下面将从最近进展的最常讨论的驱动因素开始：对模型投入（大量）更多的计算能力。

许多人认为这只是由于摩尔定律。但即使在摩尔定律的鼎盛时期，它也是相对缓慢的——大约每十年 1-1.5 个数量级。我们看到计算能力的扩展速度要快得多——接近摩尔定律速度的 5 倍——而是因为庞大的投资。（在单个模型上花费百万美元曾经是一个没有人会考虑的惊人想法，而现在这只是九牛一毛！）

模型	估算计算能力	增长
GPT-2（2019年）	~4e21 FLOP
GPT-3（2020年）	~3e23 FLOP	+ ~2个数量级
GPT-4（2023年）	8e24到4e25 FLOP	+ ~1.5–2个数量级

GPT-2 到 GPT-4 计算能力的估算来源于 Epoch AI[19]

我们可以使用 Epoch AI 的公共估计（这一来源因其对 AI 趋势的出色分析而备受尊重）来追踪 2019 年到 2023 年的计算能力扩展。GPT-2 到 GPT-3 是一个快速的扩展；有一个巨大的计算能力悬挂，从一个较小的实验扩展到使用整个数据中心来训练大型语言模型。随着从 GPT-3 到 GPT-4 的扩展，我们过渡到了现代状态：必须为下一个模型建立一个全新的（更大的）集群。然而，戏剧性的增长继续。总体来看，Epoch AI 的估算表明，GPT-4 训练使用的原始计算能力比 GPT-2 高出约 3000 到 10000 倍。

大致来说，这是长期趋势的延续。过去十五年里，主要由于广泛的投资规模扩展（以及为 AI 工作负载专门设计芯片，例如 GPU 和 TPU），用于前沿 AI 系统的训练计算能力以大约每年~0.5 个数量级的速度增长。

深度学习模型训练计算能力随时间变化。来源： Epoch AI[20]

从 GPT-2 到 GPT-3 的一年内的计算能力扩展是一个不寻常的悬挂，但所有迹象表明长期趋势将继续。旧金山的谣言满天飞，讲述着巨大的 GPU 订单的戏剧性故事。涉及的投资将是惊人的——但它们正在进行中。在竞逐万亿级集群[21]中，根据该分析，到 2027 年底，额外的 2 个数量级的计算能力（一个花费数十亿美元的集群）似乎非常有可能实现；甚至更接近+3 个数量级的计算能力（1000 亿美元以上的集群）似乎也是可能的（据传言[22]微软/OpenAI 正在开发中）。

算法效率

虽然计算能力上的巨大投资引起了所有人的关注，但算法进展可能是同样重要的进步驱动力（而且被严重低估）。

要看到算法进展有多重要，考虑以下示例：在短短两年内，在 MATH 基准（高中竞赛数学题）上达到约 50%准确率的成本下降（相比之下，一个不太喜欢数学的计算机科学博士生得分 40%，所以这已经相当不错）。推理效率在不到两年内提高了近 3 个数量级——1000 倍。

估算在 MATH 基准上达到约 50%性能的相对推理成本。【12】

尽管这些只是推理效率的数字（可能与训练效率改进不对应，训练效率改进的数字很难从公开数据中推断），它们清楚地表明，有巨大的算法进步在可能发生和正在发生。

在本文中，将区分两种类型的算法进步。在这里，将首先介绍“范式内”的算法改进——那些仅仅导致更好的基础模型，并且简单地起到计算效率或计算倍增器的作用。例如，一个更好的算法可能允许我们用少 10 倍的训练计算能力实现相同的性能。反过来，这将起到一个 10 倍（1 个数量级）的有效计算增加的作用。（稍后将介绍“解锁”，你可以将其视为“扩展范式/扩展应用”的算法进步，解锁基础模型的能力。）

如果我们退一步看长期趋势，我们似乎以相当一致的速度找到新的算法改进。个别发现似乎是随机的，每一步都似乎是不可逾越的障碍——但长期趋势线是可预测的，是图表上的直线。相信趋势线。

我们对 ImageNet（算法研究主要是公开的，并且我们有十年的数据）的数据最好，在 2012 年至 2021 年之间的 9 年间，我们以大约每年~0.5 个数量级的速度持续提高计算效率。

我们可以测量算法进步：在 2021 年与 2012 年相比，需要多少计算才能训练出具有相同性能的模型？我们看到~每年 0.5 个数量级的算法效率趋势。来源： Erdil and Besiroglu 2022[23] 。

这是一件大事：这意味着 4 年后，我们可以用~100 倍更少的计算实现相同的性能（相应地，更多的计算实现更高的性能！）。

不幸的是，由于实验室不公布内部数据，很难衡量过去四年中前沿 LLMs 的算法进步。 EpochAI 有新的工作[24] 复制了他们在 ImageNet 上的结果，并估计 2012 年至 2023 年间 LLMs 的算法效率趋势类似，约为每年 0.5 个数量级（这一估计有较大的误差范围，且不包括一些最近的进展，因为领先实验室停止了算法效率的发布）。

Epoch AI 的估算[25] 的语言建模算法效率。他们的估算表明，我们在 8 年内取得了约 4 个数量级的效率提升。

更直接地看过去 4 年，GPT-2 到 GPT-3 基本上是一个简单的扩展（根据论文[26]），但自 GPT-3 以来有许多公开已知和可推断的改进：

我们可以从 API 成本中推断出收益：【13】

GPT-4 发布时，成本与 GPT-3 发布时相当，尽管性能大幅提升【14】。（如果我们做一个简单且过于简化的估算，基于缩放定律，这表明从 GPT-3 到 GPT-4 的有效计算增加中约有一半可能来自算法改进【15】）
自 GPT-4 发布一年以来，OpenAI 对 GPT-4 级模型的价格下降了 6 倍/4 倍

（输入/输出），发布了 GPT-4o。* 最近发布的 Gemini 1.5 Flash 提供了“GPT-3.75 级”到 GPT-4 级的性能【16】，而成本[27]则比原始 GPT-4 低 85 倍/57 倍（输入/输出）。

Chinchilla 缩放定律[28] 提供了 3 倍以上（0.5 个数量级以上）的效率提升【17】。
Gemini 1.5 Pro 声称具有重大计算效率提升[29]（在使用“显著更少”的计算的情况下，超越了 Gemini 1.0 Ultra），其中混合专家（MoE）是一个突出的架构变化。其他[30] 论文[31] 也[32] 声称[33] 从 MoE 获得了可观的计算倍数。
在架构[34]、数据[35]、训练栈[36]等方面都有许多微调和改进【18】。

综合来看，公开信息表明从 GPT-2 到 GPT-4 的跃升包括 1-2 个数量级的算法效率提升【19】。

在 GPT-4 之后的 4 年里，我们应该预期这一趋势会继续：【20】平均每年 0.5 个数量级的计算效率，即到 2027 年相比 GPT-4 约 2 个数量级的提升。尽管随着我们摘取低垂的果实，计算效率的改进会变得越来越难发现，但 AI 实验室在金钱和人才上的投资在迅速增加【21】。（至少公开推断的推理成本效率并未减缓。）在高端，我们甚至可能看到更多的根本性突破，如 Transformer 那样【22】，带来更大的收益。

综合来看，这表明到 2027 年底，我们应该预期相比 GPT-4 大约 1-3 个数量级的算法效率提升，可能的最佳猜测是约 2 个数量级。

数据壁垒

这一切中有一个潜在的重要变化来源：我们正在耗尽互联网数据。这可能意味着，很快，预训练更大的语言模型在更多抓取的数据上的简单方法可能会遇到严重瓶颈。

前沿模型已经训练了互联网的大部分数据。Llama 3，例如，训练了超过 15 万亿个 token[37]。Common Crawl，一个用于 LLM 训练的互联网大部分数据的转储，是>100 万亿个原始 token，尽管其中很多是垃圾和重复（例如，一个相对简单的去重[38]导致 30 万亿个 token，意味着 Llama 3 已经使用了几乎所有的数据）。此外，对于代码等更具体的领域，token 数量更少，例如公共 github 仓库[39]估计在低万亿个 token。

你可以通过重复数据走得更远，但学术研究[40]发现，重复数据只能带你走这么远，发现 16 次迭代（16 倍重复）后，回报急剧下降到几乎没有。到某个时候，即使有更多的（有效）计算，让你的模型变得更好也会变得更难，因为数据的限制。这不能被低估：我们一直在骑着缩放曲线，骑着语言模型预训练范式的浪潮，如果没有新的方法，这一范式将（至少天真地）耗尽。尽管有巨大的投资，我们也会停滞。

所有实验室据传正在进行巨大的研究赌注，尝试新的算法改进或方法以绕过这一问题。研究人员据说正在尝试许多策略，从合成数据到自我博弈和强化学习方法[41]。业内人士似乎非常看好：Anthropic 的 CEO Dario Amodei 最近在播客中说[42]：“如果你非常天真地看待这一问题，我们距离数据耗尽并不遥远[…] 我的猜测是这不会成为一个阻碍[…] 有很多不同的方法可以做到。”当然，任何研究结果都是专有的，现今不会发布。

除了业内人士的乐观态度，我认为也有一个强烈的直觉理由，为什么应该能找到方法以更好的样本效率训练模型（算法改进让它们从有限的数据中学到更多）。考虑你我如何从一本非常密集的数学教科书中学习：

现代 LLM 在训练过程中所做的，基本上是非常非常快速地浏览教科书，单词飞过，不花太多脑力。
相反，当你我读那本数学教科书时，我们慢慢地读几页；然后在脑海中进行内部对话，与几位学习伙伴讨论这门材料；再读一两页；然后尝试一些练习题，失败，再以不同的方式尝试，获得对这些问题的反馈，直到我们做对一个问题为止；如此反复，直到最终材料“点击”。
如果你我只能像 LLM 那样浏览数学教科书，我们也不会学到太多【23】。
但或许，有方法可以结合人类消化密集数学教科书的方式，让模型从有限的数据中学到更多。在简化的意义上，这种事情——在材料上进行内部对话，与学习伙伴讨论，尝试并失败直到它点击——是许多合成数据/自我博弈/强化学习方法试图做的事情【24】。

旧的训练模型的状态是简单且天真的，但它有效，所以没有人真正努力破解这些样本效率的方法。现在这可能成为更多的限制，我们应该预期所有实验室都会投资数十亿美元并让他们最聪明的头脑来破解它。深度学习中的一个常见模式是，需要很多努力（和许多失败的项目）来搞清楚细节，但最终某种版本的显而易见的简单事情有效。鉴于深度学习在过去十年中设法突破了每一个所谓的障碍，我的基本假设是这里会类似。

此外，破解合成数据等算法赌注实际上似乎可能显著改进模型。这里有一个直觉泵。当前前沿模型如 Llama 3 是用互联网训练的——而互联网主要是垃圾，像电子商务或 SEO 或其他。许多 LLM 在这些垃圾上花费了大部分的训练计算能力，而不是在真正高质量的数据上（例如人们解决困难科学问题的推理链）。想象一下，如果你能用 GPT-4 级别的计算能力训练完全极高质量的数据——它可能会是一个更强大的模型。

回顾 AlphaGo——第一个在围棋游戏中击败世界冠军的 AI 系统，远远早于预期——也是有用的【25】。

在第 1 步，AlphaGo 通过模仿人类专家的围棋游戏进行训练。这为它打下了基础。
在第 2 步，AlphaGo 进行了数百万场自我对弈。这使得它在围棋上超越了人类：记住与李世石对弈中的著名第 37 手，一个非常不寻常但聪明的手法，人类永远不会下这步棋。

为 LLM 开发相当于第 2 步的方法是克服数据壁垒的关键研究问题（而且最终将是超越人类智能的关键）。

所有这些表明，数据限制似乎为未来几年 AI 进展注入了巨大的误差范围。有很大的可能性会停滞（LLM 可能仍然是互联网一样重要的事物，但我们不会达到真正疯狂的 AGI）。但我认为合理地猜测实验室会破解它，并且这样做不仅会继续保持扩展曲线，甚至可能带来模型能力的巨大提升。

顺便提一下，这也意味着我们应该预期未来几年不同实验室之间的差异会比现在更大。直到最近，最先进的技术是公开的，所以每个人基本上都在做同样的事情。（而且新的初创公司或开源项目可以轻松与前沿竞争，因为配方是公开的。）现在，关键的算法思想越来越成为专有的。我预计实验室的方法会更加分化，有些会

比其他进展更快——即使是现在看似在前沿的实验室也可能在数据壁垒上卡住，而其他实验室取得突破，让它们迅速前进。而开源将很难竞争。这肯定会让事情变得有趣。（如果某个实验室破解了它，他们的突破将是 AGI 的关键，超级智能的关键——这是美国最珍贵的秘密之一[43]。）

解锁

最后，是最难量化但同样重要的改进类别：我称之为“解锁”。

想象一下，当被要求解决一个难题时，你必须立即回答你想到的第一个问题。显然，除了最简单的问题，你会很难。但直到最近，我们就是这样让 LLM 解决数学问题的。相反，我们大多数人通过在草稿纸上逐步解决问题，并且能够解决更困难的问题。“思维链”提示为 LLM 解锁了这一点。尽管拥有出色的原始能力，但它们在数学上表现不佳，因为它们被明显地限制了，而需要一个小的算法调整来解锁更大的能力。

在过去几年中，我们在“解锁”模型方面取得了巨大进步。这些是超越仅训练更好的基础模型的算法改进——通常只使用一小部分预训练计算能力——解放了模型的能力：

从人类反馈中进行强化学习（RLHF）。基础模型有惊人的潜在能力【26】，但它们是原始的且难以使用。虽然 RLHF 的流行观念是它仅仅审查脏话，但 RLHF 对于使模型真正有用且具有商业价值是关键的（而不是让模型预测随机的互联网文本，让它们实际应用其能力来尝试回答你的问题！）。这就是 ChatGPT 的魔力——做得很好的 RLHF 使得模型对现实中的人们可用且有用。原始的InstructGPT 论文[44] 对此有一个很好的量化：一个 RLHF 的小模型在人类评分偏好上相当于一个非 RLHF 的>100 倍大的模型。
思维链（CoT）。如前所述。 CoT 在两年前开始被广泛使用[45]并能在数学/推理问题上提供>10 倍的有效计算提升。
脚手架。想象 CoT++：而不是仅仅要求模型解决一个问题，让一个模型制定攻击计划，另一个模型提出一系列可能的解决方案，另一个模型进行批判，等等。例如，在 HumanEval（编程问题）上，简单的脚手架使 GPT-3.5 的表现超过了未脚手架的 GPT-4。在 SWE-Bench（一组解决现实世界软件工程任务的基准）上，GPT-4 只能正确解决~2%，而使用Devin 的代理脚手架[46]则跳跃到 14-23%。（解锁代理才刚刚开始，我将在后文详细讨论。）
工具：想象一下，如果人类不能使用计算器或电脑。我们只是刚刚开始，但 ChatGPT 现在可以使用网页浏览器，运行一些代码，等等。
上下文长度。模型已经从 2k token 上下文（GPT-3）扩展到 32k 上下文（GPT-4 发布）到 1M+上下文（Gemini 1.5 Pro）。这是一个巨大的变化。一个具有例如 100k 相关上下文的较小基础模型可以超过一个较大但只有 4k 相关上下文的模型——更多的上下文实际上是一个大的计算效率提升【27】。更一般地说，上下文是解锁这些模型许多应用的关键：例如，许多编程应用需要理解代码库的大部分才能有效地贡献新的代码；或者，如果你使用模型来帮助你撰写工作中的文档，它需要来自许多相关内部文档和对话的上下文。Gemini 1.5 Pro，具有 1M+token 上下文，甚至能够从头学习一种新语言[47]（一种互联网上没有的低资源语言），只需将字典和语法参考资料放在上下文中！
后训练改进。当前的 GPT-4 相比于发布时的 GPT-4 有了显著改进，根据 John Schulman[48]的说法，后训练改进解锁了潜在的模型能力：在推理评估[49]中，它取得了显著进展（例如，MATH 从~50% -> 72%，GPQA 从~40% -> ~50%），在LMSys 排行榜[50]上，它的 ELO 几乎提升了 100 分（相当于 Claude 3 Haiku 和更大 Claude 3 Opus 之间的 ELO 差异，这些模型有约 50 倍的价格差异[51])。

Epoch AI 的一项调查[52]对这些技术的一些，如脚手架、工具使用等，发现这些技术通常在许多基准上带来 5-30 倍的有效计算提升。METR（一个评估模型的组织）在他们的一组代理任务中也发现了非常大的性能提升，通过解锁相同 GPT-4 基础模型的能力：从仅基础模型的 5%，到发布时经过后训练的 GPT-4 的 20%，到今天通过更好的后训练、工具和代理脚手架的近 40%。

尽管很难将这些与计算和算法效率统一在一个有效计算的规模上，但显然这些巨大的提升，至少在大致上与计算扩展和算法效率相当。（这也强调了算法进步的中心地位：每年 0.5 个数量级的计算效率，已经相当显著，只是故事的一部分，加上解锁的算法进步，整体上可能是当前趋势的多数收益。）

“解锁”实际上使这些模型变得有用——我认为今天许多商业应用受限于进一步“解锁”的需要。确实，今天的模型仍然非常受限！例如：

它们没有长期记忆。
它们不能使用电脑（它们仍然只有非常有限的工具）。
它们仍然大多在发言前不思考。当你让 ChatGPT 写一篇文章时，这就像期望一个人通过他们的初始意识流写一篇文章【28】。
它们大多只能进行短暂的对话，而不能离开一天或一周，思考一个问题，研究不同的方法，咨询其他人，然后为你写一份更长的报告或提交请求。
它们大多没有个性化给你或你的应用（只是一个带有短提示的通用聊天机器人，而不是拥有你公司和工作的所有相关背景）。

这里的可能性是巨大的，我们正在迅速摘取低垂的果实。这是关键：仅想象“GPT-6 ChatGPT”是完全错误的。随着持续的解锁进展，改进将是相比 GPT-6 + RLHF 的飞跃。到 2027 年，而不是一个聊天机器人，你将拥有类似代理、类似同事的东西。

从聊天机器人到代理合作伙伴

未来几年雄心勃勃的解锁可能是什么样的？我的思考方式是，有三个关键因素：

1. 解决“入职问题”

GPT-4 有足够的智慧来完成许多人的工作，但它有点像一个刚到 5 分钟的聪明新员工：它没有任何相关的背景知识，没有阅读公司文档或 Slack 历史记录，或与团队成员进行过任何对话，也没有花时间了解公司内部代码库。一个聪明的新员工在到达 5 分钟后并不那么有用——但一个月后他们会很有用！看起来应该有可能，例如通过非常长的上下文来“入职”模型，就像我们会对待一个新的人类同事一样。这本身就是一个巨大的解锁。

2. 测试时计算能力过剩（推理/错误校正/系统 II 用于更长时间的问题）

目前，模型基本上只能完成短期任务：你问它们一个问题，它们给你一个答案。但这是非常有限的。大多数人类有用的认知工作是长期的——不仅仅是 5 分钟，而是几小时、几天、几周或几个月。

一个只能在 5 分钟内思考难题的科学家无法取得任何科学突破。

一个只能在被要求时编写单个函数框架代码的软件工程师也不会很有用——软件工程师被分配一个更大的任务，然后制定一个计划，理解代码库或技术工具的相关部分，编写不同的模块并逐步测试，调试错误，搜索可能的解决方案，最终提交一个数周工作的完整请求。等等。

本质上，有一个测试时计算能力过剩。把每个 GPT-4 token 想象成你思考问题时的一个内部对话词汇。每个 GPT-4 token 都很聪明，但目前它只能有效地使用大约数百个 token 来连贯地思考（相当于你在问题或项目上只能花几分钟的内部对话/思考时间）。

如果它能使用数百万个 token 来思考和解决非常困难的问题或更大的项目会怎样？

token数量	相当于我在某事上的工作时间…
100s	几分钟	ChatGPT（我们现在在这里）
1000s	半小时	+1个数量级测试时计算
10,000s	半个工作日	+2个数量级
100,000s	一个工作周	+3个数量级
百万	数月	+4个数量级

假设一个人以~每分钟 100 个 token 的速度思考并每周工作 40 小时，将 token 转换为在特定问题/项目上人的时间。

即使“每个 token”的智力相同，这也意味着一个聪明的人花几分钟与花几个月在一个问题上的区别。我不知道你怎样，但我在几个月与几分钟内能做到的差距巨大。如果我们能解锁“能够思考和工作几个月时间的模型，而不是几分钟”，这将解锁一个疯狂的能力跳跃。这里有一个巨大的过剩，许多数量级的价值。

目前，模型还不能做到这一点。即使有了最近的长上下文进展，这种更长的上下文主要仅适用于 token 的消费，而不是生产——过一段时间后，模型会偏离轨道或卡住。它还不能独自一人去处理一个问题或项目【29】。

但解锁测试时计算可能只是相对小的“解锁”算法胜利。也许少量的 RL 可以帮助模型学会错误校正（“嗯，这看起来不对，让我再检查一下”），制定计划，搜索可能的解决方案，等等。从某种意义上说，模型已经具备大部分原始能力，只需要再学一些技能来把它们组合起来。

本质上，我们只需要教会模型一种外部循环系统 II【30】，让它推理困难、长期的项目。

如果我们成功教会这个外部循环系统，而不是一个几段文字的短对话回答，想象一下数百万字的流动（比你能阅读的快）模型在思考问题，使用工具，尝试不同的方法，做研究，修改工作，协调他人，并独立完成大项目。

在其他领域，如围棋游戏的 AI 系统中，已经证明【31】你可以使用更多的测试时计算（也称推理时计算）来代替训练计算。

Jones（2021）：一个较小的模型可以在围棋游戏中表现得与一个大得多的模型一样好，只要你给它更多的测试时计算（“更多时间思考”）。在这个领域，他们发现一个可以使用~1.2 个数量级更多的计算在测试时得到相当于一个有~1 个数量级更多训练计算的模型的表现。

如果在我们的情况下也存在类似关系，如果我们能解锁+4 个数量级的测试时计算，那可能相当于+3 个数量级的预训练计算，大致相当于 GPT-3 和 GPT-4 之间的跳跃。（即，解决这个“解锁”将等同于一个巨大的数量级扩展。）

3. 使用计算机

这可能是三者中最直接的。目前 ChatGPT 基本上就像一个坐在一个孤立的箱子里，你可以给它发短信的人。虽然早期的解锁改进教会模型使用单个孤立的工具，我预计随着多模态模型，我们很快可以一举完成：我们将简单地允许模型像人类一样使用计算机。

这意味着加入你的 Zoom 会议，在线研究东西，发送和接收消息和电子邮件，阅读共享文档，使用你的应用程序和开发工具，等等。（当然，为了模型在更长期的循环中最大化这一点，这将与解锁测试时计算能力并行进行。）

最终，我预计我们将得到类似于即插即用的远程工作者。一个代理加入你的公司，像新的人类雇员一样入职，在 Slack 上与你和同事交流，使用你的软件，提交请求，并且在给定大项目时，可以独立完成数周的工作。你可能需要比 GPT-4 更好的基础模型来解锁这一点，但可能也不需要那么多——很多的改进在于解决模型仍然明显受限的基本问题。

图20

这一早期的窥探类似于 Devin[53] ，一个早期的原型，旨在解锁模型在创建全自动软件工程师路径上的“代理过剩”/“测试时计算过剩”。我不知道 Devin 在实际中效果如何，这个演示与适当的聊天机器人 → 代理解锁相比仍然非常有限，但它是即将到来的某种东西的有用预告。

顺便说一下，预计解锁的中心地位将导致某种有趣的“音爆”效应，商业应用方面也是如此。在现在和即插即用的远程工作者之间的中间模型将需要大量的工作来改变工作流程和建立基础设施以整合和实现经济价值。即插即用的远程工作者将极大地容易整合——只需，将它们投入到可以远程完成的所有工作中。因此，产生的经济价值跳跃可能是相对不连续的。

未来四年

在 GPT-4 前四年进展驱动因素的估算总结，以及我们应该在 GPT-4 后的四年里期待什么。

综合这些数字，我们应该（大致）预期在 GPT-4 之后的四年里，即到 2027 年底，有另一个 GPT-2 到 GPT-4 级别的飞跃。

GPT-2 到 GPT-4 大约是 4.5–6 个数量级的基础有效计算扩展（物理计算和算法效率），加上主要的“解锁”收益（从基础模型到聊天机器人）。
在随后的 4 年中，我们应该预期 3–6 个数量级的基础有效计算扩展（物理计算和算法效率）——大概的最佳猜测是~5 个数量级——加上“解锁”带来的实用性和应用的飞跃（从聊天机器人到代理/即插即用的远程工作者）。

为了让你对这有个感受，假设 GPT-4 训练需要 3 个月。到 2027 年，一个领先的 AI 实验室将能够在一分钟内训练一个 GPT-4 级别的模型。【31】有效计算扩展将是戏剧性的。

这将带我们到哪里？

数量级变化总结。

GPT-2 到 GPT-4 将我们从~学前儿童提升到~聪明的高中生；从几乎无法输出几句连贯句子到通过高中考试并成为有用的编码助手。这是一个疯狂的飞跃。如果这是我们将再次覆盖的智能差距，它将带我们到哪里？【32】我们不应该感到惊讶，如果它将我们带到非常非常远的地方。很可能，这将带我们到能超过博士和领域内最优秀专家的模型。

（一个有趣的思考方式是，当前的 AI 进展速度大约是儿童发展的 3 倍速度。你的 3 倍速儿童刚刚高中毕业；它很快就会夺走

你的工作！）

再次强调，关键的是，不要仅仅想象一个极其聪明的 ChatGPT：解锁收益意味着这更像是一个即插即用的远程工作者，一个能推理、计划、错误校正、了解你和你的公司所有事情并能独立工作数周的智能代理。

我们正朝着 2027 年实现 AGI 前进。这些 AI 系统基本上将能够自动化几乎所有的认知工作（即：所有可以远程完成的工作）。

需要明确的是，误差范围很大。进展可能会因数据耗尽而停滞，如果突破数据壁垒所需的算法突破比预期更难。也许解锁并未走得太远，我们被困在仅仅是专家聊天机器人，而不是专家同事。也许十年的趋势线被打破，或深度学习的扩展真的遇到了瓶颈。（或者一个算法突破，甚至简单的解锁，解锁测试时计算能力过剩，可能是一个范式转变，加速进程，甚至更早实现 AGI。）

无论如何，我们正在快速通过数量级变化，并且只需要简单的趋势线外推，就可以极其认真地看待 2027 年实现 AGI——真正的 AGI——的可能性。

似乎现在很多人都在重新定义 AGI，只是一个非常好的聊天机器人或其他。我指的是一个可以完全自动化我或我朋友工作的 AI 系统，能够完全完成 AI 研究员或工程师的工作。也许某些领域，如机器人技术，可能需要更长时间来解决默认情况下。而社会推出，例如在医疗或法律专业中，可能会因社会选择或法规而减缓。但一旦模型能够自动化 AI 研究本身，那就足够了——足以启动强烈的反馈循环——我们可以非常迅速地取得进一步进展，自动化的 AI 工程师们自己解决所有剩余的瓶颈，完全自动化一切。特别是，数百万自动化研究人员非常有可能在一年内压缩十年的进一步算法进展。AGI 只是即将到来的超级智能的一个小小预览。

无论如何，不要指望快速进步的步伐减缓。趋势线看起来无害，但其含义是强烈的。和之前的每一代模型一样，每一代新模型都会让大多数旁观者目瞪口呆；当他们看到模型解决需要博士数天时间的极其困难的科学问题时，他们会难以置信，当它们在你的电脑上快速完成你的工作时，当它们从头编写数百万行代码时，每年或两年这些模型产生的经济价值会 10 倍增长。忘掉科幻小说，数一下算力数量级变化：这是我们应该期望的。AGI 不再是一个遥远的幻想。扩展简单的深度学习技术已经有效，模型只是想学习，我们将在 2027 年底前再做一次 100,000 倍以上。它们很快就会比我们更聪明。

GPT-4 只是个开始——四年后我们将在哪里？不要低估深度学习进步的快速步伐（如 GAN 进步[54]所示）。

附录。数量级变化竞赛：这是一个关键的十年

我曾经对 AGI 的短期时间线持怀疑态度。一个原因是，似乎不合理地将这么多 AGI 概率集中在这个十年上（这似乎是一个经典的谬误，认为“哦，我们如此特别”）。我认为我们应该对实现 AGI 的时间保持不确定性，这应该导致对 AGI 何时可能到来的概率分布更加“分散”。

然而，我改变了主意：关键的是，我们对实现 AGI 所需的东西的不确定性应该是在数量级（有效计算）上，而不是在年份上。

我们在这个十年里快速通过数量级变化。即使在摩尔定律的鼎盛时期，它也只是每十年 1–1.5 个数量级。我估计我们将在 4 年内做到~5 个数量级，并且在整个十年内超过~10 个数量级。

我们在这个十年里快速通过数量级变化；到 2030 年代初之后，我们将面临缓慢的进展。

本质上，我们正在经历一个巨大的规模扩展，收获这个十年的一次性收益，之后数量级变化的进展将缓慢数倍。如果这次规模扩展不能在未来 5-10 年内带我们到 AGI，它可能还需要很长时间。

支出规模扩展：在一个模型上花费百万美元曾经是惊人的；到十年末，我们可能会有1000 亿美元或 1 万亿级集群[55]。超越这一点将变得困难；这已经基本上是可行的极限（无论是大企业能负担的，甚至只是作为 GDP 的一部分）。此后，我们只有每年 2%的实际 GDP 增长趋势来增加这一点。
硬件增益：AI 硬件的改进速度远快于摩尔定律。这是因为我们一直在为 AI 工作负载专门设计芯片。例如，我们从 CPU 转向 GPU；适应变换器的芯片；并且我们降低了精度数格式，从传统超算的 fp64/fp32 到 H100 上的 fp8。这些都是巨大的收益，但到十年末我们将可能拥有完全专门化的 AI 芯片，而没有更多超越摩尔定律的收益。
算法进展：在未来十年里，AI 实验室将在算法研发上投资数十亿，世界上所有最聪明的人将致力于此；从小的效率到新的范式，我们将摘取大量的低垂果实。我们可能不会达到任何硬性限制（尽管“解锁”可能是有限的），但至少改进的步伐应该会放缓，因为快速增长（在 $ 和人力资本投资方面）必然会放缓（例如，大部分聪明的 STEM 人才已经在从事 AI）。（不过，这个预测是不确定的，这是对 2030 年代数量级变化的不确定性的主要来源。）

综合来看，这意味着我们在未来十年内通过的数量级变化将比此后多得多。也许这足够了——我们很快会实现 AGI——否则我们可能会经历一段漫长的、缓慢的进展。你我可以合理地对 AGI 的中位数时间进行不同的猜测，取决于我们认为实现 AGI 有多困难——但鉴于我们现在正在快速通过数量级变化，显然你的AGI 年应该是这个十年或类似时间。

图26 Matthew Barnett对此有一个很好的相关可视化，只考虑计算和生物学界限。

参考链接

[1]

Dario Amodei: https://www.dwarkeshpatel.com/p/dario-amodei

[2]

一直很安静: https://x.com/leopoldasch/status/1768868127138549841

[3]

像人类一样对话的机器: https://openai.com/index/hello-gpt-4o/

[4]

它生成的: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[5]

示例: https://openai.com/index/better-language-models/

[6]

简单的文案: https://ai-copysmith.com/

[7]

示例: https://gwern.net/gpt-3

[8]

AGI的火花: https://arxiv.org/abs/2303.12712

[9]

在这里: https://x.com/leopoldasch/status/1638848850516672513?s=20

[10]

我们世界的数据: https://ourworldindata.org/grapher/test-scores-ai-capabilities-relative-human-performance?country=Handwriting+recognition~Speech+recognition~Image+recognition~Reading+comprehension~Language+understanding~Predictive+reasoning~Code+generation~Complex+reasoning~General+knowledge+tests~Nuanced+language+interpretation~Math+problem-solving~Reading+comprehension+with+unanswerable+questions

[11]

MMLU: https://arxiv.org/abs/2009.03300

[12]

成绩: https://arxiv.org/pdf/2303.08774

[13]

预测: https://bounded-regret.ghost.io/ai-forecasting-one-year-in/

[14]

MATH基准: https://arxiv.org/pdf/2103.03874

[15]

为了在数学问题解决上取得更多进展，我们可能需要更广泛研究界的新的算法突破”——他们认为需要根本性的新的突破来解决MATH。对[ML研究人员的调查预测: https://bounded-regret.ghost.io/ai-forecasting-one-year-in/

[16]

50%准确率: https://research.google/blog/minerva-solving-quantitative-reasoning-problems-with-language-models/

[17]

MATH基本上被解决了: https://x.com/bneyshabur/status/1792304689335480511

[18]

GPQA: https://arxiv.org/abs/2311.12022

[19]

Epoch AI: https://epochai.org/data/epochdb/table

[20]

Epoch AI: https://epochai.org/data/epochdb

[21]

竞逐万亿级集群: https://docs.google.com/document/d/1rWU00M9JGybX_EtYoKxAwXnoMbxhQv1v0vaCWRNc5iw/edit#bookmark=id.ix3esf7i3p5z

[22]

传言: https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer

[23]

Erdil and Besiroglu 2022: https://arxiv.org/abs/2212.05153

[24]

EpochAI有新的工作: https://arxiv.org/pdf/2403.05812

[25]

Epoch AI的估算: https://arxiv.org/pdf/2403.05812

[26]

论文: https://arxiv.org/abs/2005.14165

[27]

成本: https://ai.google.dev/pricing

[28]

Chinchilla缩放定律: https://arxiv.org/abs/2203.15556

[29]

重大计算效率提升: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

[30]

其他: https://x.com/deepseek_ai/status/1745304852211839163?s=20

[31]

论文: https://arxiv.org/pdf/2101.03961

[32]

也: https://arxiv.org/pdf/2202.08906

[33]

声称: https://arxiv.org/pdf/2112.06905

[34]

架构: https://arxiv.org/pdf/2307.08691

[35]

数据: https://arxiv.org/pdf/2306.01116

[36]

训练栈: https://arxiv.org/pdf/1909.08053

[37]

超过15万亿个token: https://ai.meta.com/blog/meta-llama-3/

[38]

相对简单的去重: https://www.together.ai/blog/redpajama-data-v2

[39]

公共github仓库: https://arxiv.org/pdf/2211.04325

[40]

学术研究: https://arxiv.org/abs/2305.16264

[41]

合成数据到自我博弈和强化学习方法: https://www.dwarkeshpatel.com/p/will-scaling-work

[42]

最近在播客中说: https://www.dwarkeshpatel.com/p/dario-amodei

[43]

最珍贵的秘密之一: https://situational-awareness.ai/lock-down-the-labs/

[44]

InstructGPT论文: https://openai.com/research/instruction-following

[45]

CoT在两年前开始被广泛使用: https://arxiv.org/abs/2201.11903

[46]

Devin的代理脚手架: https://x.com/cognition_labs/status/1768716551056728233

[47]

从头学习一种新语言: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

[48]

根据John Schulman: https://www.dwarkeshpatel.com/p/john-schulman

[49]

推理评估: https://x.com/polynoamial/status/1778584064343388179

[50]

LMSys排行榜: https://chat.lmsys.org/?leaderboard

[51]

价格差异: https://www.anthropic.com/api

[52]

Epoch AI的一项调查: https://epochai.org/blog/ai-capabilities-can-be-significantly-improved-without-expensive-retraining

[53]

Devin: https://www.youtube.com/watch?v=fjHtjT7GO1c

[54]

_GAN进步: https://twitter.com/goodfellow_ian/status/1084973596236144640/photo/1

[55]

1000亿美元或1万亿级集群: https://situational-awareness.ai/racing-to-the-trillion-dollar-cluster/

[56]

SSC: https://slatestarcodex.com/2019/02/19/gpt-2-as-step-toward-general-intelligence/

[57]

GPT-2 论文: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[58]

ScaleAI 的一项分析: https://x.com/alexandr_wang/status/1785888203943161970

[59]

指出: https://bounded-regret.ghost.io/ai-forecasting-one-year-in/

[60]

指出: https://x.com/YaBoyFathoM/status/1659516423540965378

[61]

被 GPT-3 解决: https://www.astralcodexten.com/p/my-bet-ai-size-solves-flubs

[62]

被 GPT-4 解决: https://www.lesswrong.com/posts/cGbEtNbxACJpqoP4x/gpt-4-solves-gary-marcus-induced-flubs

[63]

输掉: https://twitter.com/finmoorhouse/status/1638221410328797186?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1638221410328797186%7Ctwgr%5E30fcf9cb4b7ac2403b9fbf482b142b6598405006%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.redditmedia.com%2Fmediaembed%2F11xp2dz%2F%3Fresponsive%3Dtrueis_nightmode%3Dfalse

[64]

钻石集，多数投票: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

[65]

缩放定律论文: https://arxiv.org/pdf/2001.08361

[66]

论文: https://arxiv.org/pdf/2304.15004

[67]

GPT-3: https://the-decoder.com/openai-cuts-prices-for-gpt-3-by-two-thirds/

[68]

GPT-4: https://openai.com/pricing

[69]

规模: https://www.databricks.com/blog/gpt-3-quality-for-500k

[70]

论文: https://arxiv.org/pdf/2312.00752

[71]

GPT-4 预训练在 2022 年完成: https://cdn.openai.com/papers/gpt-4.pdf

[72]

~10 倍增益: https://twitter.com/tamaybes/status/1767589514984493537

[73]

Gemini 1.5 Pro 论文: https://arxiv.org/pdf/2403.05530

[74]

这里: https://youtu.be/zjkBMFhNj_g?si=g1Oa-KJitdCPHj_g&t=2284

[75]

更新后的 Gemini 1.5 白皮书: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

chatgpt plus(GPT4)代充值

本文链接：https://hengqin123.com/chatgpt_577.html

chat gpt 充值支持的信用卡 chatgpt在电脑怎么下载和注册注册chatgpt 教程 ChatGPT充值 gpt4o gpt4o openai chatgpt注册好了之后如何使用 gpt4和gpt4o gpt4o检测情绪 gpt4o怎么用

GPT4o-plus模型使用介绍！
最近EngageAI网站不仅接入了GPT-4o模型，现在还增加了GPT-4o-Plus模型，功能超级强大！！...
Openai资讯2024-06-1731chatgpt原版注册流程 chatgpt4.0短视频使用技巧 ChatGPT充值价格是多少 gpt4o gpt4o openai chatgpt注册好了之后如何使用 gpt4和gpt4o gpt4o检测情绪 gpt4o怎么用
每一次新对话都记得你：OpenAI 向 ChatGPT Plus 用户开放“记忆”功能
每一次新对话都记得你：OpenAI 向 ChatGPT Plus 用户开放“记忆”功能OpenAI公司今天宣布面向所有ChatGPT Plus用户开放“记忆”（Memory）功能。这一功能可以让Cha...
Openai资讯2024-06-12118ChatGPT充值 chatgpt注册好以后怎么用 chatgpt注册用什么手机号官网ChatGPT4.0 中文版chatgpt怎么注册 GPT4如何使用 GPT4购买 GPT4.0价格 GPT4介绍 GPT4.0登录
Apple都对接GPT-4o了，AI要帮HR完成所有工作了？看你怎么用了
不知道你有没有熬夜看WWDC24，过去想尽一切办法不提AI这个词的Apple终于憋出了大招，AI = Apple Intelligence 苹果智能，提到好像又没有提，全靠你自己体悟。Apple的设计...
Openai资讯2024-06-1253chatgpt注册好后怎么用 ChatGPT充值 ChatGPT plus gpt4o gpt4o openai chatgpt注册好了之后如何使用 gpt4和gpt4o gpt4o检测情绪 gpt4o怎么用 openai推出gpt4o
OpenAI向所有ChatGPT Plus用户，开放“记忆”功能！
4月30日凌晨，OpenAI在社交平台宣布，向所有ChatGPT Plus用户开放“记忆”（ Memory ）存储功能。用户通过开启该功能，可以使ChatGPT记住那些冗长、繁琐的内容，而不必每次打开...
Openai资讯2024-06-12120ChatGPT充值 chatgpt注册用什么手机号官网ChatGPT4.0 中文版chatgpt怎么注册 GPT4如何使用 GPT4购买 GPT4.0价格 GPT4介绍 GPT4.0登录购买GPT4.0
OpenAI和Google更新多模态，看好AI算力投资
OpenAI召开春季发布会发布GPT-4o新模型。5月14日凌晨1点，OpenAI召开春季发布会，发布了新旗舰模型GPT-4o。GPT-4o（“o”代表“omni”）迈向了更加自然的人机交互，它提供...
Openai资讯2024-06-1191chatgpt免注册 ChatGPT充值 gpt4o gpt4o openai chatgpt注册好了之后如何使用 gpt4和gpt4o gpt4o检测情绪 gpt4o怎么用 openai推出gpt4o gpt4o将免费

GPT-4 只是个开始——四年后我们将在哪里？不要低估深度学习进步的快速步伐，到 2027 年实现 AGI 是非常有可能的

全文目录

过去四年

GPT-2 到 GPT-4

深度学习趋势

计算能力

算法效率

数据壁垒

解锁

从聊天机器人到代理合作伙伴

未来四年

附录。数量级变化竞赛：这是一个关键的十年

相关资源

参考链接

相关文章

GPT4o-plus模型使用介绍！

每一次新对话都记得你：OpenAI 向 ChatGPT Plus 用户开放“记忆”功能

Apple都对接GPT-4o了，AI要帮HR完成所有工作了？看你怎么用了

OpenAI向所有ChatGPT Plus用户，开放“记忆”功能！

OpenAI和Google更新多模态，看好AI算力投资