东方港湾10月月报观点：想象一个Agent的世界

返回 <<港湾视界

东方港湾投研部 2024-11-06

我们可能都知道，GPT—— OpenAI的这款火爆全球的人工智能应用，全称叫生成式预训练变换器（Generrative Pretrained Transformer）；但GPT还有另一个不常被人提起的全称——通用目的技术 (General Purpose Technology) 。OpenAI 以“GPT”来命名其人工智能产品，似乎从一开始就标志着他们发明了一项开启全人类新时代的通用目的技术。

在人类过去上千年的历史长河中，出现过许多通用目的技术，像农业、轮子、印刷术、蒸汽机、电力或互联网等。这类技术最大的特点，就是它们都无一例外显著地降低了某项关键社会活动要素的成本，随后创造出巨大的规模效应，而其他要素依附其上，便出现了商业模式的巨大变革，改变了所有人的生活和工作方式，也衍生并加速了其他许多垂直领域技术的发展。

以最近的一次通用目的技术革命——互联网为例。互联网的出现将人类的“信息传播”成本基本降至 0。当许多社会活动扩大规模时，其信息组织传播的成本可以相对保持不变，依附于其上的商业和社会生活就都发生了天翻地覆的变化：零售不再是我们熟悉的街边夫妻店，而是年营业额高达 8 万亿覆盖了全球的淘宝天猫；小说不再是被窝里的金庸古龙四大名著，而是人人都可编撰的无处不在的网络爽文；社交通讯不再受限于随身携带的小小电话簿，而是微信里可能 5000 人上限都挡不住的好友申请；没人买单车和充电宝了，街边随处可见过剩的共享资源；出租车不再是牌照垄断生意，行政权力也得让步于时代科技的日新月异；百年前还被称为“三教九流”之末流的“戏子”，也因为互联网的出现而成了“明星”，挤入了社会名流之列。通用目的技术带来的改变太大，身处其中可能不自觉，但变革来临之前，一切似乎都难以想象。而有些“看得远、看得准”的投资人，却在过去的二十年里从中找出了大量的投资机会，享受了来自时代的红利。

AI 是最新的一项通用目的技术，它也试图将人的“智能”要素成本降到无限低（电力与电器曾经将人的“蛮力”成本降到无限低）。经过两年的发展，AI 从一个简单的聊天机器人，现在开始具备了推理思考的能力。接下来，随着逻辑能力不断得到泛化提升，以及“工具使用能力”和“个性化定制能力”的完善，Agent (AI 助理) 将成为 2025 年人工智能的核心主题。Agent 的出现所带来的最大变化，是将成本不断下降的“智能”进行规模化，进而带动依附于其上的其他要素，进行商业模式的变革，这里面或许藏着我们还没看到的投资机会。

当前人工智能实现规模化最大的障碍之一，在于缺乏“AI 操作系统”。操作系统的功能，是负责与用户交互，同时通过计算资源调配、任务进度与权限管理、数据访问等方式指挥应用程序工作。互联网依靠着“浏览器”与“手机操作系统”，才得以“网页”和“App”的形式实现技术应用的快速规模化。而今天的 AI 技术，在替代人类实现工作或生活的自动化过程中，因缺乏统一的操作系统（交互界面不统一且I/O模态能力残缺，无法调用和指挥人类所使用的各种软硬件工具，同时因缺乏垂直领域数据的训练，不懂得工作流程），每个 AI 应用在开发的时候，相当于同时得为自己开发一遍操作系统的功能，因此“智能”的导入异常艰难，限制了AI规模化推广的速度。这也给咨询公司带来了生意，据埃森哲 2024 财年财报显示，其生成式 AI 相关业务的新增订单已达 30 亿美元。

OpenAI 将人工智能第三阶段定义为“Agent——AI 助理”（目前处于第二阶段“推理者”，而Agent的定义是能够独立完成给定任务的机器人，而非一问一答的聊天机器人），而 Agent 正是具备成为 AI 操作系统所需的核心能力。

首先，从交互方式上，区别于 PC 的鼠标键盘与手机的触屏操作，Agent 逐渐具备了自然语言对话（文字或实时语音）与实时视频感知这两种交互方式，全新的交互方式通常是新操作系统的重要标志。

其次，在任务执行上，Agent 已经具备了分步逻辑推理的能力，能够理解人类给予的任务，并做分步规划。目前行业努力的方向，则是在任务规划后，让 Agent 能够学会使用人类各种软硬件工具来完成任务。10 月份，我们密集地看到了我国的智谱清言发布了 AutoGLM，Anthropic 发布了 Claude 3.5，以及 OpenAI 发布了 GPT Search 等模型能力更新。此三者的重点分别在于：AutoGLM 让模型学会模拟人类进行手机触屏操作和理解，以完成例如点外卖、发信息、订机票等应用操作；Claude 3.5 让模型学会模拟人类使用电脑，查看屏幕，点击鼠标键盘，操作网页、查询信息填表等操作；GPT Search 则让模型更好地模拟人类使用搜索引擎，找寻相关信息查找，总结和呈现想要的答案并提供网页来源。在逻辑思维能力的保障下，让 Agent 逐步学会使用所有人类目前已有的各种软硬件工具，是接下来 AI 进化的主要方向。

再者，Agent 对于垂直领域数据的使用，会逐步实现个性化定制能力的开放，模型更容易进行微调或 RAG。像 ChatGPT 目前的“记忆”功能或Microsoft Copilot Studio 的 Agent 定制功能，都会逐步升级，模型在工作中逐渐模仿我们的工作流程和习惯，记录我们的工作成果，更加懂我们的价值取向，逐步实现模型的“推训一体化”。

以 Agent 作为操作系统，会让 AI 应用更容易被建立起来，“智能”的规模化进程会被加快，带动全球商业模式和生活方式的大变革，创造出许多新的投资机会。为此，我们可以就“Agent时代”作出一些联想或推理，看看商业模式的重构中是否会诞生一些投资机会，隐含着一些投资风险。不一定对，但对投资或许有未雨绸缪参考意义。

第一，软硬件的使用方式和商业模式可能会发生颠覆式的变化。

过去的软硬件是预编程且固定化的，人类通过学习固定指令或复杂操作，来使用并实现某些需求，难点在于“人去理解和操作软硬件”。Agent 的出现，可以让人不再需要（或很少）去学习操作指令，而是让 AI 去理解人类的需求和软硬件的使用方式，并代表人类去操作并完成任务。这就是“Agent”——AI 助理的第一个非常重要的功能。这可能会导致软硬件行业发生三个重要的变化。

首先，软硬件会变得极其简单易用，导致其用户人群和使用频率得到极大的提升。这会带来大量的投资机会，尤其是过去具有普世需求但特别难用的软硬件，例如复杂的修图软件、视频编辑软件、游戏设计软件、智能家居，等等。拿智能物联网来说，IOT 一直以来的痛点就是软硬件设置和使用的复杂性，行业产品普及一直是半生不熟的状态，这是 Agent 助理大展拳脚的地方。修图软件也是如此，修图需求人人都有，但功能最全的Photoshop需要看完一整本教程，甚至花费数月才能掌握，这导致其全球用户只有1亿左右，Agent也可以为此代劳，而人只需要学会提需求。

其次，部分广告的商业模式可能受到冲击，内容消费却会因此更加兴旺。Agent 的介入，可能并不会直接取代软硬件本身，因为软硬件作为工具的属性（例如音箱或马桶的设置程序，邮箱功能，表格工具甚至搜索引擎等），或者本身提供的内容与服务（例如股票行情，音乐与食品，机票预订商等），并不会被智能所取代，而是被智能所使用。但人类直接操作软件的频次将大大降低，许多软硬件会失去用户的注意力资源，从而釜底抽薪地摧毁了互联网广告的商业模式，例如传统关键词搜索引擎。但仍有大量的软件，是以提供内容资讯为主的，还是需要人类去消费的，例如视频游戏，反倒会因为 Agent 解放了人类的时间，人们更多地沉迷于内容的消费之上。当然生产式 AI 的发展，作为另外一条线，也会促进内容消费的蓬勃发展。

再者，Agent 本身作为一种操作系统，本身的价值也会得到实现。其商业模式，可能会类似于我们去雇佣人类助理一样，按月给工资，工资水平按照助理的劳动岗位和价值而定。一开始，每个人可能会有多个 AI 助理，手机端、电脑端、家庭物联网、汽车端，甚至浏览器级别和 APP 也会有 AI 助理诞生。但慢慢地，高级别的 Agent（例如操作系统级别>具体 App 级别），或者成生态级别的 Agent，或者模型底座能力强的 Agent，甚至是越多人用的 Agent，可能会逐渐胜出。因为它们跟你交互的机会越多，累积的个性化数据越多，就越懂你（比如让 Agent 给我点一杯瑞幸咖啡，要什么样的配置选项，如果需要涉及多轮对话确认，那么还不如用户自己上手操作更快），也越能调用足够多的资源，同时快速响应你的需求。这或许将是一种新型的“网络效应”。

第二，智能的规模化，使得服务业可能更容易出现规模化大企业。

长期以来，我们很少看到提供“服务”的公司，能成长为巨无霸型的大企业，核心障碍就是服务以人为本，员工难以规模化。一旦规模变大，要么高技艺的人才缺失限制了增长，像医院和学校；要么人员管理难度指数型上升，组织架构臃肿无效，像物流快递和餐饮酒店。我们拉开上市公司市值排行来看，靠前的基本上清一色是生产有形或无形商品的公司。

Agent 的出现，或许能够解开服务业长期无法规模化的“诅咒”。一些稀缺但普世的智力资源，例如教学、法律或医疗资源能够低成本复制。医疗 AI 的价值量更大但容错率极低，可能推广难度更大；但 AI 教学 Agent 却可以被快速进行复制，广泛应用在学生课外辅导，职业再教育，甚至是校内的教育当中。而其他中低智能服务业，像销售公司、客服公司、代运营公司甚至物业公司，人员被 Agent 或实体机器人替代，会变得更好管理和规模化。总而言之，服务业可能更容易成长出商业巨擘，这里边可能会产生许多有悖现有常识的投资机会。

本月，微软 Copilot 推出的第二波重要更新，就带来了 10 个不同岗位的虚拟员工 Agent，对应销售、采收、财务等不同工种。例如销售助理，Agent 会自动整理可能有销售机会的“线索”，进行优先排序，自动草拟该线索的个性化营销文案，一切就绪等待人类做出决定。例如采购助理，会帮助你在邮件中梳理采购订单的进程和异常，提示你要介入重要的谈判会议；当重要供应出现延迟时，助理会从仓库中调用腾挪，提出缓解计划。例如客服助理，会从纷繁的客户沟通中，自动梳理客户意图和请求，从知识库中调取相应的资料给你回复；与此同时，在客服处理一些新的情况之后，AI 助理会自动将处理的方式生成资料，（经过客服允许）加入知识库当中，以便后续调用。服务业或服务岗位的 Agent 员工，现在正式宣告上岗工作，未来一个公司里的虚拟员工数量可能是人类的几十上百倍。

服务业的规模化经营，可能引发另一个涟漪——社会通胀压力的大幅减轻，尤其是人力成本高昂的成熟经济体。很久之前用过的一张图，很清晰地展示了不同商品服务的市场价格在 20 年间的变化走势，工业的规模经济在降低商品价格方面效果卓越，而服务行业则构成了现代经济体价格通胀的主要来源。AI 智能的普及，能够帮助降低这部分的通胀压力，带动利率长期走低，改善投资环境。

第三，Agent 和智能的大规模普及，将更进一步使“算力”成为水和电一样的工业基础原料。

为得到更好的模型能力和输出结果，AI 算力的需求，一直在随着预训练阶段的模型大小，以及后训练和推理阶段的推理时长，水涨船高。本月G公司在其财报中说，现在公司内部推理算力的使用已达 60%，开始反超训练的算力投入。M公司称其AI收入的ARR首次超过100亿美元，并且全部来自推理需求。这都说明一个趋势，AI的推理需求在不断壮大。Agent 的推广，会进一步带动 AI 推理的不断提升，为算力买单的不再只有少数家行业巨头的模型训练研发投入，而是各行各业的行业应用，众人拾柴火焰高，可持续性得到增强。我们曾估算过，以GPU四年使用周期为例，过去四年全球累积了近 4500 ExaFlops 的 AI 算力，以全球 80 亿人口来算，人均不过 0.5T；而单单一个自动驾驶应用所需算力目前就高达 500T（明年T公司预计将提高到 2000T），更别提未来无数的AI应用。一旦智能在全球普及，算力仍然远远不够。

另一方面，Agent 的普及，还将给预训练带来更多的数据，解决目前数据多样性短缺的问题，延续模型训练的算力需求和 AI 能力的进化趋势。深度学习是模仿人类的过程，理论上所有模拟人类行为的数据都有用。但过去许多数据没被有意识地积累，例如驾驶数据、人类思考的过程等；许多数据则被深埋在每个具体行业企业内部，数据的使用成本极高，这都大大地限制了模型参数的进一步变大。我们相信模型变大是大势所趋，目前最大 1 万亿参数的模型，相比人脑 100 至 1000 万亿对神经元连接，进步的空间还很大。小模型只是算力不足的一种妥协，大模型即便在垂直领域表现也比小模型出色，至于效率问题完全可以由算法解决。Agent 普及的过程，就有点像该英文单词的另一个中文解释——特工。当 Agent 接入百行千业和千家万户，每家公司使用虚拟员工的时候，都必须对其进行定制化的培训，教会其具体的工作流程、经验和工具的使用；每个人使用虚拟助手的时候，也最终会让其熟悉地掌握用户的行为习惯、思维方式和一些个人信息；这些职场上和生活里的人类行为数据，最终或多或少有一部分会成为模型预训练的数据。就像特工一样，将深埋在垂直领域的情报挖掘出来，将过去不自觉的数据累计起来，用于模型的预训练。

更重要的是，Agent 的普及，还有可能促成算力增长的第三条增长曲线——Multi-Agents Corporation Scaling Law （多助理合作的缩放定律），从而形成算力需求的“三轮驱动”。黄仁勋在本月的采访中，提到说把一个天才关进软垫房间一个月，结果未必是一个更聪明的人。然而，如果我们将两三个不同知识分布的人关在一起，通过问答互动，每个人都可以变得更聪明。当 Agent 在各行各业里普及开来，Agent 的专业化分工必定会越来越明显，不同行业、不同岗位甚至不同员工的 Agent 都会有显著的数据差异。让这些具有不同知识结构的 Agent 之间合作，无论是头脑风暴，还是互补地共同完成一件任务，都必定会产生出比单兵作战更好的结果，即所谓“三人行必有我师”。而这种多 Agent 合作所产生的算力需求，相比人与 Agent 之间对话所产生的需求量，将会再度呈现几何倍数的扩张。

第四，Agent 的出现极大地增加了某些生产要素的可工作时间，社会全面进入自动化阶段。

以自动驾驶为例，10月10日“We Robot”大会召开，马斯克给我们展示了这样一个愿景：明年上市的新款汽车Cybercab将不设方向盘和油门刹车，实现完全自动驾驶，将汽车的使用时间从每周（168 个小时）使用 10 小时提高到 100 小时。除了接送车主本身，闲置时汽车会自动驾驶去接出租车订单，为车主挣钱。由于没有人工成本，以及工作时间的延长，出租车业务每公里价格将下降至少 60%。这又将大大鼓励人们出行乘坐无人出租车，降低私家车的拥有量。久而久之，社会汽车保有量会下降，无人出租车兼具廉价和点到点直达的特点，会成为公共交通的主要工具，社会的停车场也会大量消失，改为住宅或公园。这对汽车制造业和传统出租车行业和就业势必造成严重冲击，但也会创造出一个拥有庞大车队的无人出租车的新商业模式。

类似的，无人工厂、无人餐厅、无人商场、无人实验室可能变得随处可见，甚至每个社会岗位上，当人类休息的时候，Agent 还能接着工作，完成人类指派的任务，社会陆续进入全面自动化阶段。

当商业模式发生变革的时候，部分人群的就业可能会受到冲击，例如传统出租车业务，这在历史的产业兴衰更替中都在所难免。但在人工智能的 Agent 阶段，AI助理发挥的更多是提高生产力的“工具人”或“代理人”的角色，人的作用仍然不可取代。大部分岗位不只是“把人安全送到指定位置”的任务这么简单，还涉及人情社交，承担职位责任与后果，对产品或工作流程的创新 (AGI 第四阶段的目标)，以及对资源的组织工作 (AGI 的第五阶段目标)，这些都是 Agent 助理所不能替代的。但Agent能够帮助人极大地提高生产效率，下图为过去 40 年标普500的企业里员工创收的走势，于今年急速创了新高。而人均效率提升了，很多过去没有效益的投资项目也可以做了，反而创造了更多的工作岗位，这在过去 100 年的科技进步过程中皆是如此。当然，哪一天当AI与机器人可以完全替代大部分人类工作时，“劳动创造财富”成为历史，就需要国家机器更多地承担财富分配的工作了，在富足的物资条件下，工作与否或许也就不再重要了。当“无产阶级”成为历史，“无用阶级”成为新的名词，工作牛马不再，付费工作体验或许会成为新的潮流。

以上四点，是当 Agent 全面降临时，我们现在可能联想和推理出的社会变化和商业模式变革。投资比的是“谁看得远，看得准，敢重仓，能坚持”，但以上预测有可能错漏百出，时代的剧本也或许更加超乎我们的想象。所以在仰望星空的同时，也要脚踏实地，根据客观现实不断调整概率判断。投资更多是在不断调整的预测中，去下注最大概率的机会。

我们从本月 AI 巨头发布的财报，可以看到一些预测不断在变成现实：巨头 AI 资本开支不断加码，展望明年也呈不断加速之势；在此投资规模下，各云厂商的 AI 需求增速仍在不断提速，甚至算力产能仍大幅落后于 AI 推理需求；某些AI 助手的订阅需求季度环比超 50% 增长快速上量，传统软硬件全面 AI 化，部分产品使用人数上十亿；新业务的大幅资本开支增长，并没有影响企业的分红回购金额，也并没有严重压低利润率，有的云厂商的利润率甚至出现大幅上涨的情况。

那么2025 年以后的Agent世界，会以什么样的形式展开，让我们拭目以待！

风险提示及免责声明：市场有风险，投资需谨慎。在任何情况下，文章中的资讯仅供读者参考之用，文中提到的公司亦仅为阐述产业逻辑，所有内容均不带任何投资建议，读者不应单纯依靠本文而取代个人的独立判断。对于因使用、引用、参考本文内容而导致的投资损失、风险及纠纷的，东方港湾不负任何责任。