过去三个月,美股市场巨幅波动中人们所担心的一切,似乎都在九月份画上了句号。
随着美联储降息如期落地,AI行业的两大疑云,也终于本月拨云见日。其一是Blackwell芯片如期落地。英伟达CEO黄仁勋,本月在高盛组织的论坛上表示,其最新的AI芯片Blackwell即将在10月份正式下线。这意味着AI的计算速度,将于下月开始提升5-30倍,成本下降80%-96%,为AI的模型能力提升以及应用的大面积普及,按下“加速键”。其二是Openai正式推出了新一代的AI模型,代号o1。这开启了通用人工智能中最重要的一项能力——推理能力。o1的推出,让AGI获得了缩放定律的“双轮驱动”,加速进入AGI的第三阶段,也使得算力需求被更进一步打开了上限。
在o1的介绍中,我们看到新模型的能力发生了“质变”:在数学竞赛中的准确率,从GPT4o的13.4%提升了6倍到83.3%;而在代码竞赛中的准确率,则从GPT4o的11%提升了8倍到89%。在通往AGI的路上,继“语言理解与表达”能力和“知识存储与查询”能力外,AI模型诞生出的第三种“通用智能”——逻辑推理能力。
这让AI从依靠记忆的“直觉”到开始学会了“思考”。过去的模型在“预测下一个词”的任务中,学习并记住了万事万物之间的“相关性”,但因缺乏必然的“因果性”,常常会出现各种“幻觉”。所谓“学而不思则罔”,仅仅靠死记硬背,只会让AI“知其然,而不知其所以然”。现在的新模型o1,则学会了把一个问题进行逐步拆解,每一步去探索各种可能性,每一步之间保持着因果关系,还能对过程和结果进行反向验算和自我修正,最终找出解题在最佳路线。虽然这种成熟的思考能力,目前仅在数学和代码领域被证明有显著效果,但这仅仅只是个开始。就像一位数学系毕业的研究生,虽不具备胜任某项工作的经验,但有时“无用之用方为大用”,具备严密的分步探索推理能力,才是在各项需要逻辑思维的工作中胜任的核心能力。
因此,逻辑推理能力,最大的应用对象不是编写代码(虽然代码编程领域全球每年产值高达5000亿美元),而是构建AI智能体Agent。Openai将AGI的进程分成了5个阶段,目前我们已从第一阶段“聊天机器人”到达第二阶段“推理者”,而逻辑推理能力正是第三阶段“代理人Agent”的前置条件。所谓的代理人Agent,可以理解为“独立任务执行者”,与当前AI聊天机器人相比,不再是简单的一问一答,而是接受人类的任务后,主动分析问题,逐步规划和探索各种解决方案,使用各种人类使用的工具,并与其他Agent之间展开分工合作,最终完成任务,例如自动驾驶、程序化交易机器人、手机虚拟助手、业务办理的客服机器人、游戏AI陪玩,等等。
据我们观察,当下几乎所有AI的创业项目都在围绕着如何构建Agent而展开,其目标非常明确:替代人类,无论是替代员工执行某项任务,还是替代用户进行自动操作。这才是AI最大的一类应用。但以往在构建Agent时,因为模型缺乏主动思考能力,需要人类将业务流程编写成一套规则,让AI无脑地按照规则去办事,若遇到规则以外的业务,AI则变得无能为力,像极了一个只懂按图索骥对业务一无所知的员工。开启了推理能力的AI,往Agent又更近了一步,可以根据业务范例去思考业务的流程规则,遇到范例之外的业务,也可以尝试着思考其他的解决方案或策略。如果未来再加上“模型个性化定制”、“业务工具使用”以及“多模型分工合作”等能力,应该可以真正开启AGI的第三阶段。在AGI的第三阶段,模型就像一个刚毕业的大学生,学过了通识与专业知识,具备了强大的思考能力,被输送到许多不同的工作岗位,能够快速地熟悉工作内容,掌握具体工作的技巧和经验,学会使用具体工作常用的工具,快速地融入与人类或其他智能体共事环境里。
而这一天,很可能在一年内到来。在o1发布后的某次采访中,Openai的CEO山姆奥特曼表示:“从聊天机器人到推理者,我们用了比较久的时间(接近2年),而从推理者到智能体的过程,则会非常快”。我们推断,这与“推理能力”的新范式构建相对困难,英伟达全新处理器Blackwell的即将下线,以及更为重要的,Scaling Law(缩放定律)出现了新的范式有关。
首先,在Agent能力的构建中,逻辑推理能力相对最为复杂,而目前只有Openai“轻舟已过万重山”。这也是为什么“推理者”要被单列为AGI第二阶段的原因所在,也意味着GPT被再次追平的难度要更大一些。推理能力的构建难度,来自训练时的出题选择、反馈模型的构建、搜索与验证的算力分配以及本身基础模型的性能基础等。尤其是出题障碍:o1的训练严格来讲,并不是Self-play。类似于围棋或Dota的任务中,出题者(竞赛对手)与解题者是对称的,即当解题者找到新的对战策略,出题者的能力也会相应得到提升,难度会自动提升,有点“左脚踩右脚上天”的模式。而o1模型的训练,要一步一步由易到难地去选择训练数据,一开始还需要人工去干预去启动,需要好多轮的迭代,逐渐提升模型的推理能力,而不是一蹴而就的自动上天。所以即便o1会自动搜索最佳策略,自行验算过程结果,但选题的过程还是需要人类的精心安排,是个漫长的数据工程。而o1不再像以往一样公开工程细节和思路,甚至连使用o1时的思考过程数据都对用户隐藏,竞争对手都只能自己从头摸索,难度不小。
其次,Blackwell即将于10月份下线,该GPU恰巧是为“推理”而生。逻辑推理的任务,需要储存和处理非常多的中间思考过程,这与聊天机器人的一问一答有极大不同;同时,推理比问答所需时间高出了许多许多倍,未来随着任务难度的复杂化,推理时间甚至可能以天或周来计算。这两者都共同指向了Blackwell新一代计算架构的核心特征——集群化能力。集群化可以通过共享内存,储存和处理大量的中间数据,更是可以通过并行计算,最大化地缩短推理运算时间,降低任务处理的等待周期。在GTC大会上,英伟达向我们展示了B200的训练和推理效率,分别最大提升5倍和30倍,可以理解为新一代GPU就是为配合新的推理模型,应运而生的。
再者,最为重要的是,Openai找到了“缩放定律”的新范式,进入了“双轮驱动”的阶段。“缩放定律”描述了“AI模型的能力会随着算力规模的扩大而提升”的规律,是本轮大模型进化的根本推动力。但过去这个规律只存在于“预训练”阶段,现在在训练o1推理模型的过程中,研究人员发现了无论是在模型的“后训练”阶段(强化学习训练),还是在应用模型的推理阶段,让模型使用更多的算力(思考更长的时间),所得出结果的准确性和质量也会得到相应的提升。这宣告了AI进入了“双轮驱动”的阶段,模型的“直觉”与“思考能力”,都能随着算力的提升而齐头并进,加速进入AGI第三阶段。
双轮驱动下的AI模型进入加速发展期,必然的推论是:算力的需求上限空间被进一步打开了。
旧的发动机并未熄火,我们相信预训练阶段的“缩放定律”依旧成立。今年来,预训练阶段继续扩大规模,面临着数据类型不足和算力不到位的尴尬局面,而情况正在发生转变。首先,预训练所需的数据是类型不够,而非数量不够,否则Gemini 1.5用了十倍于GPT4的训练数据,智能就应该远超GPT4才对,而不是仅让模型变得更小。现在,除了视频数据以外,训练和使用o1的过程中,所产生的逻辑推理数据也能够被用来作为预训练的素材。其训练的结果,将使得模型具备更加多样化的实时多模态输入与输出能力,以及将许多复杂任务的经验与逻辑转变成“直觉”的能力,就像某些行业的老兵,不再需要对复杂任务进行长时间思考,而是一步到位地得出正确结果。另一方面,预训练的“缩放定律”之所以迟迟没有进展,我们认为更重要的是在等待Blackwell芯片的下线。GPT4级别的所有模型都用了将近10的25次方浮点算力进行训练,模型能力的进一步提升需要算力再提高至少一个数量级(十倍),而相信这一天已经到来。除此以外,o1的“缩放定律”也要求预训练必须继续扩大规模。研究表明,推理的“缩放定律”并不能随着算力而无止境提升,当推理算力大于预训练算力时,推理时间越长,效果反倒越差。如果预训练的模型不够好,思考得再多也只是胡思乱想,即“思而不学则殆”。
新的发动机潜力巨大。Openai的CEO山姆奥特曼形容o1是GPT2时刻,也就是说新的缩放定律范式还有很长的路可以走,智能可以随着算力提升得到更多的升级,例如推理能力的泛化,对于高难度问题的处理,对于简单问题的高效处理等。更加值得注意的是,预训练阶段的“缩放定律”,是由有限的玩家(Openai、谷歌、Meta、Anthropic、Xai等)不断提高资本开支,以提升算力来获得更高的性能,总归是“势单力薄”;但新的推理“缩放定律”,除了靠有限的模型开发商,在强化学习阶段提高训练的算力需求外,更多的是要靠广大的用户,在更为普遍的AI应用中,提高对算力使用时间的需求,以求得到更好的输出结果,这是一条“众人拾柴火焰高”的新路线。
因此,继Openai与Xai之后,本月Meta也表示Llama的下一代模型,将使用10万块GPU进行训练。单从结果来看,10万H100集群成为当下公认的模型训练入门券,相当于FP16精度下100 Exaflops的峰值算力。而上一代GPT4所需要的算力,大概是2万张A100集群,FP16的峰值算力大约只有6 exaflops,门槛提升了16倍。而这可能还只是“单轮驱动”下的算力需求,新的推理“缩放定律”可能使得算力需求进一步得到提升。
正如o1的研究员Hyung Won Chung所说,“缩放定律”并不是做同一件事并一味地增加计算量,而是找到现有假设的规模瓶颈并尝试找到新的路线,继续增加计算量。所谓“学而不思则罔,思而不学则殆”,缩放定律的双轮驱动,带来推理能力和多模态能力的突破,加上Blackwell芯片落地所带来的AI使用成本断崖式下降,我们会很快进入AI Agent的第三阶段。而AI Agent的普及,也将反过来带动缩放定律的飞轮,提升对算力的可持续需求。
我们今天站在了AI二次加速的路口,而A股与港股也正处于一轮剧烈的政策反弹行情中,但从经济主体化债压力、优质投资项目短缺和人口红利快速消退这三大压力来看,经济与企业盈利质量的修复,可能仍是一个较长的过程。投资需要有所取舍,鱼与熊掌不可兼得,之所以大多数人的投资总是错失一个个时代,因为诱惑太多,人们总在各种轮动和机会间迷失了自己。东方港湾坚持用全球视野,在不同的时代背景下,去选择和持有那些“改变世界”与“不被世界改变”的企业,这就要求我们需要选择性地放弃其他机会的诱惑。因为从长期的视角来看,只有经济增长和企业盈利所带来的投资回报,才是最为真实可靠,且适合大多数投资人。
风险提示及免责声明:市场有风险,投资需谨慎。在任何情况下,文章中的资讯仅供读者参考之用,文中提到的公司亦仅为阐述产业逻辑,所有内容均不带任何投资建议,读者不应单纯依靠本文而取代个人的独立判断。对于因使用、引用、参考本文内容而导致的投资损失、风险及纠纷的,东方港湾不负任何责任。