东方港湾9月月报观点：AI进入“双轮驱动”的新阶段

返回 <<港湾视界

东方港湾投研部 2024-10-14

过去三个月，美股市场巨幅波动中人们所担心的一切，似乎都在九月份画上了句号。

随着美联储降息如期落地，AI行业的两大疑云，也终于本月拨云见日。其一是Blackwell芯片如期落地。英伟达CEO黄仁勋，本月在高盛组织的论坛上表示，其最新的AI芯片Blackwell即将在10月份正式下线。这意味着AI的计算速度，将于下月开始提升5-30倍，成本下降80%-96%，为AI的模型能力提升以及应用的大面积普及，按下“加速键”。其二是Openai正式推出了新一代的AI模型，代号o1。这开启了通用人工智能中最重要的一项能力——推理能力。o1的推出，让AGI获得了缩放定律的“双轮驱动”，加速进入AGI的第三阶段，也使得算力需求被更进一步打开了上限。

在o1的介绍中，我们看到新模型的能力发生了“质变”：在数学竞赛中的准确率，从GPT4o的13.4%提升了6倍到83.3%；而在代码竞赛中的准确率，则从GPT4o的11%提升了8倍到89%。在通往AGI的路上，继“语言理解与表达”能力和“知识存储与查询”能力外，AI模型诞生出的第三种“通用智能”——逻辑推理能力。

这让AI从依靠记忆的“直觉”到开始学会了“思考”。过去的模型在“预测下一个词”的任务中，学习并记住了万事万物之间的“相关性”，但因缺乏必然的“因果性”，常常会出现各种“幻觉”。所谓“学而不思则罔”，仅仅靠死记硬背，只会让AI“知其然，而不知其所以然”。现在的新模型o1，则学会了把一个问题进行逐步拆解，每一步去探索各种可能性，每一步之间保持着因果关系，还能对过程和结果进行反向验算和自我修正，最终找出解题在最佳路线。虽然这种成熟的思考能力，目前仅在数学和代码领域被证明有显著效果，但这仅仅只是个开始。就像一位数学系毕业的研究生，虽不具备胜任某项工作的经验，但有时“无用之用方为大用”，具备严密的分步探索推理能力，才是在各项需要逻辑思维的工作中胜任的核心能力。

因此，逻辑推理能力，最大的应用对象不是编写代码（虽然代码编程领域全球每年产值高达5000亿美元），而是构建AI智能体Agent。Openai将AGI的进程分成了5个阶段，目前我们已从第一阶段“聊天机器人”到达第二阶段“推理者”，而逻辑推理能力正是第三阶段“代理人Agent”的前置条件。所谓的代理人Agent，可以理解为“独立任务执行者”，与当前AI聊天机器人相比，不再是简单的一问一答，而是接受人类的任务后，主动分析问题，逐步规划和探索各种解决方案，使用各种人类使用的工具，并与其他Agent之间展开分工合作，最终完成任务，例如自动驾驶、程序化交易机器人、手机虚拟助手、业务办理的客服机器人、游戏AI陪玩，等等。

据我们观察，当下几乎所有AI的创业项目都在围绕着如何构建Agent而展开，其目标非常明确：替代人类，无论是替代员工执行某项任务，还是替代用户进行自动操作。这才是AI最大的一类应用。但以往在构建Agent时，因为模型缺乏主动思考能力，需要人类将业务流程编写成一套规则，让AI无脑地按照规则去办事，若遇到规则以外的业务，AI则变得无能为力，像极了一个只懂按图索骥对业务一无所知的员工。开启了推理能力的AI，往Agent又更近了一步，可以根据业务范例去思考业务的流程规则，遇到范例之外的业务，也可以尝试着思考其他的解决方案或策略。如果未来再加上“模型个性化定制”、“业务工具使用”以及“多模型分工合作”等能力，应该可以真正开启AGI的第三阶段。在AGI的第三阶段，模型就像一个刚毕业的大学生，学过了通识与专业知识，具备了强大的思考能力，被输送到许多不同的工作岗位，能够快速地熟悉工作内容，掌握具体工作的技巧和经验，学会使用具体工作常用的工具，快速地融入与人类或其他智能体共事环境里。

而这一天，很可能在一年内到来。在o1发布后的某次采访中，Openai的CEO山姆奥特曼表示：“从聊天机器人到推理者，我们用了比较久的时间（接近2年），而从推理者到智能体的过程，则会非常快”。我们推断，这与“推理能力”的新范式构建相对困难，英伟达全新处理器Blackwell的即将下线，以及更为重要的，Scaling Law（缩放定律）出现了新的范式有关。

首先，在Agent能力的构建中，逻辑推理能力相对最为复杂，而目前只有Openai“轻舟已过万重山”。这也是为什么“推理者”要被单列为AGI第二阶段的原因所在，也意味着GPT被再次追平的难度要更大一些。推理能力的构建难度，来自训练时的出题选择、反馈模型的构建、搜索与验证的算力分配以及本身基础模型的性能基础等。尤其是出题障碍：o1的训练严格来讲，并不是Self-play。类似于围棋或Dota的任务中，出题者（竞赛对手）与解题者是对称的，即当解题者找到新的对战策略，出题者的能力也会相应得到提升，难度会自动提升，有点“左脚踩右脚上天”的模式。而o1模型的训练，要一步一步由易到难地去选择训练数据，一开始还需要人工去干预去启动，需要好多轮的迭代，逐渐提升模型的推理能力，而不是一蹴而就的自动上天。所以即便o1会自动搜索最佳策略，自行验算过程结果，但选题的过程还是需要人类的精心安排，是个漫长的数据工程。而o1不再像以往一样公开工程细节和思路，甚至连使用o1时的思考过程数据都对用户隐藏，竞争对手都只能自己从头摸索，难度不小。

其次，Blackwell即将于10月份下线，该GPU恰巧是为“推理”而生。逻辑推理的任务，需要储存和处理非常多的中间思考过程，这与聊天机器人的一问一答有极大不同；同时，推理比问答所需时间高出了许多许多倍，未来随着任务难度的复杂化，推理时间甚至可能以天或周来计算。这两者都共同指向了Blackwell新一代计算架构的核心特征——集群化能力。集群化可以通过共享内存，储存和处理大量的中间数据，更是可以通过并行计算，最大化地缩短推理运算时间，降低任务处理的等待周期。在GTC大会上，英伟达向我们展示了B200的训练和推理效率，分别最大提升5倍和30倍，可以理解为新一代GPU就是为配合新的推理模型，应运而生的。

再者，最为重要的是，Openai找到了“缩放定律”的新范式，进入了“双轮驱动”的阶段。“缩放定律”描述了“AI模型的能力会随着算力规模的扩大而提升”的规律，是本轮大模型进化的根本推动力。但过去这个规律只存在于“预训练”阶段，现在在训练o1推理模型的过程中，研究人员发现了无论是在模型的“后训练”阶段（强化学习训练），还是在应用模型的推理阶段，让模型使用更多的算力（思考更长的时间），所得出结果的准确性和质量也会得到相应的提升。这宣告了AI进入了“双轮驱动”的阶段，模型的“直觉”与“思考能力”，都能随着算力的提升而齐头并进，加速进入AGI第三阶段。

双轮驱动下的AI模型进入加速发展期，必然的推论是：算力的需求上限空间被进一步打开了。

旧的发动机并未熄火，我们相信预训练阶段的“缩放定律”依旧成立。今年来，预训练阶段继续扩大规模，面临着数据类型不足和算力不到位的尴尬局面，而情况正在发生转变。首先，预训练所需的数据是类型不够，而非数量不够，否则Gemini 1.5用了十倍于GPT4的训练数据，智能就应该远超GPT4才对，而不是仅让模型变得更小。现在，除了视频数据以外，训练和使用o1的过程中，所产生的逻辑推理数据也能够被用来作为预训练的素材。其训练的结果，将使得模型具备更加多样化的实时多模态输入与输出能力，以及将许多复杂任务的经验与逻辑转变成“直觉”的能力，就像某些行业的老兵，不再需要对复杂任务进行长时间思考，而是一步到位地得出正确结果。另一方面，预训练的“缩放定律”之所以迟迟没有进展，我们认为更重要的是在等待Blackwell芯片的下线。GPT4级别的所有模型都用了将近10的25次方浮点算力进行训练，模型能力的进一步提升需要算力再提高至少一个数量级（十倍），而相信这一天已经到来。除此以外，o1的“缩放定律”也要求预训练必须继续扩大规模。研究表明，推理的“缩放定律”并不能随着算力而无止境提升，当推理算力大于预训练算力时，推理时间越长，效果反倒越差。如果预训练的模型不够好，思考得再多也只是胡思乱想，即“思而不学则殆”。

新的发动机潜力巨大。Openai的CEO山姆奥特曼形容o1是GPT2时刻，也就是说新的缩放定律范式还有很长的路可以走，智能可以随着算力提升得到更多的升级，例如推理能力的泛化，对于高难度问题的处理，对于简单问题的高效处理等。更加值得注意的是，预训练阶段的“缩放定律”，是由有限的玩家（Openai、谷歌、Meta、Anthropic、Xai等）不断提高资本开支，以提升算力来获得更高的性能，总归是“势单力薄”；但新的推理“缩放定律”，除了靠有限的模型开发商，在强化学习阶段提高训练的算力需求外，更多的是要靠广大的用户，在更为普遍的AI应用中，提高对算力使用时间的需求，以求得到更好的输出结果，这是一条“众人拾柴火焰高”的新路线。

因此，继Openai与Xai之后，本月Meta也表示Llama的下一代模型，将使用10万块GPU进行训练。单从结果来看，10万H100集群成为当下公认的模型训练入门券，相当于FP16精度下100 Exaflops的峰值算力。而上一代GPT4所需要的算力，大概是2万张A100集群，FP16的峰值算力大约只有6 exaflops，门槛提升了16倍。而这可能还只是“单轮驱动”下的算力需求，新的推理“缩放定律”可能使得算力需求进一步得到提升。

正如o1的研究员Hyung Won Chung所说，“缩放定律”并不是做同一件事并一味地增加计算量，而是找到现有假设的规模瓶颈并尝试找到新的路线，继续增加计算量。所谓“学而不思则罔，思而不学则殆”，缩放定律的双轮驱动，带来推理能力和多模态能力的突破，加上Blackwell芯片落地所带来的AI使用成本断崖式下降，我们会很快进入AI Agent的第三阶段。而AI Agent的普及，也将反过来带动缩放定律的飞轮，提升对算力的可持续需求。

我们今天站在了AI二次加速的路口，而A股与港股也正处于一轮剧烈的政策反弹行情中，但从经济主体化债压力、优质投资项目短缺和人口红利快速消退这三大压力来看，经济与企业盈利质量的修复，可能仍是一个较长的过程。投资需要有所取舍，鱼与熊掌不可兼得，之所以大多数人的投资总是错失一个个时代，因为诱惑太多，人们总在各种轮动和机会间迷失了自己。东方港湾坚持用全球视野，在不同的时代背景下，去选择和持有那些“改变世界”与“不被世界改变”的企业，这就要求我们需要选择性地放弃其他机会的诱惑。因为从长期的视角来看，只有经济增长和企业盈利所带来的投资回报，才是最为真实可靠，且适合大多数投资人。

风险提示及免责声明：市场有风险，投资需谨慎。在任何情况下，文章中的资讯仅供读者参考之用，文中提到的公司亦仅为阐述产业逻辑，所有内容均不带任何投资建议，读者不应单纯依靠本文而取代个人的独立判断。对于因使用、引用、参考本文内容而导致的投资损失、风险及纠纷的，东方港湾不负任何责任。