AI员工将进入企业，新一代AI芯片崭露头角！启明创投年度AI十大展望发布

智东西AI前瞻（公众号：zhidxcomAI）
作者江宇
编辑漠影

智东西AI前瞻7月28日报道，今日，在2025世界人工智能大会（WAIC）期间，启明创投主管合伙人周志峰发表主题演讲《技术向上生长，应用向下扎根——AI共振周期暨2025 AI十大展望发布》，发布了“AI十大展望”。

该报告覆盖了从基础模型、多模态智能体、AI基础设施到新型交互与机器人应用等多个方向，系统梳理了未来12至24个月内值得关注的关键技术与落地趋势，构成了一份面向下一个AI周期的重要趋势图谱。

在这份年度报告中，启明创投将未来一到两年的发展趋势概括为“能力突破”与“应用深化”两个方面。

启明创投判断，未来12到24个月，大模型领域或将迎来一次决定性跃迁：基础模型上下文窗口或拓展至200万Token，通用视频模型有望实现生成、推理、理解一体化，彻底改变内容创作与人机交互方式。

如果这些能力得以兑现，其直接产物将是“数字员工”的真正诞生——Agent不再只是工具，而将深入企业内部流程去交付结果；多模态智能体也将在高复杂场景中完成推理与执行。

同时，国产AI芯片将迎来“国设”+“国造”的大规模交付，AI原生硬件或将在部分场景从手机上转移出用户的部分需求，具身智能产品如通用机器人也有望率先在制造业和物流业的拣选、搬运和组装等场景实现商业部署。

以下是周志峰演讲实录（智东西在不影响原意的前提下进行了处理）：

一、AI投资热度不减，技术与应用进入“共振”周期

一年一度，一期一会。首先特别开心，又能在WAIC启明创投的创业与投资论坛上，跟各位新老朋友，无论是线下参加还是线上看直播的，再次聚在一起。熟悉我们论坛的人都知道，每年都是我来开始这个“序曲”，引出后续的演讲与讨论。

今年我的题目叫“技术向上生长，应用向下扎根”。为什么起这个名字？我记得2023年我们第一次论坛的时候，我跟大家分享过我的感受：做AI投资人最大的感受就是“累”。

当时美国大模型公司密集发布新模型，我经常凌晨三四点起床，为了抢那些公司发布会之后有限的邀请码，赶紧去试试最新的大模型技术。

去年我说，AI越来越热闹，但在任何一个“大浪潮”热闹的时候，噪音特别多。作为一个投资人，如何“让自己安静下来”？你真正能够有自己的独立判断、有自己的思考去进行布局，是一件特别不容易的事。

而今年，我觉得AI产业又到了一个新的阶段：一方面，技术还在往上快速增长，没有明显的天花板；另一方面，技术在性能、成本方面变得“可用”，我们也看到“大规模的应用已经开始落地”，就像“树根一样”深深扎根、扎实生长，在创造巨大的价值。

所以今年AI处在一个很特别的“周期”——“AI技术与应用的共振周期”。启明创投在整个AI产业链上有很多布局，我们投了很多中国AI领域的企业。

但我们的信息和观点，并不是“闭门造车”自己想出来的，而是整合了来自产业界“一手信息”的成果，这也是我今天十分钟分享的基础。从投资人角度讲，我依然愿意“累”，因为这是最热门的赛道。

大家可以看看，2025年AI占了全球50%以上的投资份额。一个领域占全球一半的投资，这说明：即使AI大模型已经成长了两三年，大家仍然认为“它的潜力依然巨大”。越来越多投资人，用“真金白银去投票”，持续投入到AI中。

这半年甚至一年，很多人在问：“是不是预训练这条路快走到头了，大模型的天花板差不多了？Scaling Law是不是不灵了？”但从资本的“投票”来看，不是这样的。2024年，模型公司拿到了330亿美元，占全年全球风险投资的近20%。

二、大模型关键能力跃迁，推理与多模态成技术主线

这也说明，大模型依然在高速发展。过去12个月，大模型有了很多新突破，比如MOE架构、合成数据、更长的上下文窗口等等。如果让我总结一两个最关键的技术进展，第一个一定是推理能力。

以前的大模型是靠几万亿个token做预训练，压缩信息。当你提问时，它只是把“信息转移”给我们人类用户。而现在，有了推理能力之后，它能做更深入的逻辑思维，“向前推理，向后反思”，具备了非常复杂的一些能力。效果非常明显。

去年这个时候，我们在讲GPT-4o，当时，它是最强的模型。但如果用人类智商测试标准，它的成绩不到70分。还记得《阿甘正传》里的主角Forest Gump吗？他的智商是75，是一位“轻度的智障者”。所以当时的大模型，也只是“人类的轻度智障者”水平，只能做一些简单的应用，做不了复杂任务。

但现在，最新的推理模型，比如上周五发布的“阶跃星辰Step-3”模型，智商已达到120左右。这意味着什么？全球80亿人，有87%的人的智商在90-120分之间。也就是说，大模型已经超越了80%以上人类的智商水平。这是非常重大的进展。

另一个关键是“多模态”。过去，我们说“大语言模型”，但语言只是人感知和交互的一个维度。如果能融入语音、图像、视频，甚至未来的物联网多维信息，那模型对世界的感知与交互就会变得更加丰富多彩。

除了语言主导的模型外，图像和视频生成模型的进展也很大。今年5月，谷歌发布的“Veo 3”，已经能生成非常真实的视频，还能自动加音效、对白、背景噪音，让你感觉“就像是一个真实世界的视频记录”。

我们投资的生数科技，此前也发布了新一代视频模型。它可以支持输入“最多七个主体”（人、动物、汽车等）的参考图片，且在生成的视频中保持这些主体的“高度一致性”。

三、Agent进化走向“七月定律”，AI产品应用迈向全球

再来说说Agent。这是从今年3月开始最火的话题。Agent爆火，其实是因为基础模型能力提升了：上下文窗口更大、能使用外部工具，核心还是“推理能力”的增强。现在甚至出现了“智能体的摩尔定律”——任务处理复杂度每七个月翻一倍。我们可以期待Agent再经历一、两个“七个月周期”后，会达到什么样的智能水平。

今年1月，DeepSeek V3/R1模型发布，震惊全球。它在“推理成本”上做得非常好，仅为OpenAI对应模型的5%。此后，全球大模型团队都在压低成本。谷歌比DeepSeek还降了不少，阶跃星辰最新模型的推理成本又比DeepSeek更低。现在主流的大模型，即使没有做蒸馏，完整尺寸大模型的推理成本也已经降到每百万Token约1美元，比去年下降了近100倍。

讲完技术，我们再看应用层。大家熟悉的ChatGPT这个产品，是这波AI浪潮的点火器。2023年7月，我们第一次在WAIC召开论坛时，ChatGPT周活用户不到1亿；到2024年举办论坛时是2亿；而现在已经“差不多八、九亿周活用户”了。AI应用发展速度非常快。

哈佛商业评论最近也总结了一个趋势——AI产品从辅助创意走向深层互动。过去我们用AI在做图、写文案时产生创意，参考它的idea。但现在，疗愈陪伴产品成了最常用的应用，真正帮助用户寻找情绪出口，成为一个数字化的陪伴者。

Token调用量也反映了应用热度，比如豆包，12个月内调用量增长了超过100多倍。

硬件方面也有进展。我们投的“未来智能”推出的翻译耳机，用户已突破100万。Plaud AI这个华人团队主攻北美市场，也刚刚突破百万用户。

人形机器人在中国开始率先落地。比如两周前，优必选刚签了全球最大的人形机器人订单；智元与宇树也中标了真实落地场景。

还有一个趋势是“全球化”。过去互联网公司是“本地称王，再拓海外”；但现在，AI产品“生而全球”。比如快手的可灵AI，网页端80%流量来自海外。生数科技的视频生成平台Vidu AI，上线3个月用户超1000万，其中80%以上也来自海外。

四、十大预测：基础突破、应用转向与硬件新形态

我们每次分享的最后，也是最重要的环节，我们再次挑战一下自己，跟大家聊聊我们对接下来12个月到18个月的十大展望。

1、基础模型上下文窗口突破

今年的展望，第一个是关于基础模型。我们认为基础模型会有很多创新，但有一点，就是12个月内，中国和美国的头部基础模型就会达到一个200万Token的上下文窗口。从供给端看，注意力机制等架构的创新正在推动长文本能力迅速突破；而从需求端看，只有上下文窗口更长，才能生成出真正有细节、有连贯性的、贴合语境的高质量内容。

2、通用视频模型进入实用期

第二个是关于多模态模型。其实不光是我们启明自己的判断，我们也结合了很多企业家、科学家、创新者的智慧。

在这个领域，我们判断未来一到两年之内，会出现真正的通用视频模型，可以处理在视频模态下的多种任务，包括生成、推理和任务理解，促进“内容生成”以及“交互方式”的革新。

3、Agent迈入“数字员工”时代

那下一个是关于AI Agent。AI Agent也是现在非常热的话题。我们判断在未来12到14个月，Agent的形态将从“工具的辅助”走向“真正的任务承接”。

在未来，我们认为两年之内会有真正意义上的“首批数字员工”进入企业内部，广泛参与企业的研发、销售、运营和客户服务等重要环节。这意味着AI Agent不再仅作为助手存在，而是从“成本工具”走向了“价值创造”，具备主动承担OKR、主动反馈、协同作业等能力。

4、多模态Agent将不断走向实用化

多模态Agent将能够融合视觉、语音、传感器等多源输入，进行复杂推理、工具调用与任务执行，在医疗、金融、法律等行业率先实现突破。

5、更多国设国造的GPU开启批量交付

然后下面是关于AI的基础设施，第一个是关于芯片。我们认为未来12个月到18个月内，有望看到越来越多所谓“国设”且“国造”的GPU问世。

不光是中国团队设计的GPU，而且是在中国的供应链中生产的GPU，能够真正走向市场，批量交付。这将是对中国AI行业一个巨大的好消息。

但与此同时，我们也会看到很多新一代去颠覆传统GPU的“冯诺依曼架构”的AI芯片出现。比如说3D内存堆叠、通算融合等新一代AI芯片，也会慢慢走向市场、崭露头角。

6、AI Infra侧将大幅降低Token成本

接下来是我们对另一个AI基础设施层的判断。过去两年推理成本已下降了超百倍，我们判断这个趋势还会继续。

未来12到24个月，Token的消耗量还会再提高1到2个数量级。集群推理优化、终端推理优化，和软硬件协同优化，将成为AI基础设施进一步降低Token成本的关键路径。

7、AI催生“非屏幕中心”的新型硬件

再说说应用，我们比较确信未来很快会看到一次“范式转移”。也就是说，过去或现在我们主要的应用，都是基于手机，基于“人+屏幕”的人机交互方式。手机这种屏幕中心的人机交互方式，已经越来越跟不上AI能力的发展。

未来会出现很多更自然、更符合人性的“人机交互方式”，改变我们使用手机的习惯。也许会很快出现一种“能承载AI能力、又符合人性的交互”的新硬件形态。就像当年手机，在15年前、20年前把PC上的很多人类需求“转移”出来一样，新一代的硬件，也会把我们今天很多人类需求从手机上“转移出来”。

8、垂类切入成为创业破局关键

从我们投资人、创业者的角度，我们其实比较喜欢“go narrow and go deep”。我们的策略就是：应该找一个垂直细分场景，把它做深做透。这样企业才能更有效地与大厂形成差异化竞争，走出所谓大厂的“巨人阴影”。

9、AI-BPO模式崛起

另外一个关于AI应用的预测，我们也看到，过去几年，从卖license，到卖订阅，各种商业模式越来越丰富。而现在我们看到一种新模式正在异军突起，即“AIBPO”——也就是AI驱动的业务外包。

AI BPO（业务外包）模式将在未来12-24个月实现商业化突破，从“交付工具”走向“交付结果”，并通过“按结果付费”的方式，在金融、客服、营销、电商等流程标准化行业快速扩张。

10、具身智能将在三个场景率先落地

最后一个预测，是这几个月最热的“具身智能”。很多媒体都在问我：“你们觉得具身智能机器人，最先会在哪些真正有用的场景落地？而不是只是舞台表演？”我们大胆预测，未来12至18个月内，会在挑选、搬运和组装三个场景率先落地，而且是“规模化落地”——我说的“规模化”是“上千台、上万台”的落地。

我们觉得这点非常关键。只有在一些细分场景落地之后，才会形成“从模型、本体到场景数据”的飞轮效应，推动整个具身智能技术高速向前发展。

Top

1、居然智家，困在“数智化”转型里？

2、互联网数据耗尽？世界人工智能大会业界热议“大模型养料”

3、歼36三发变两发的可能性！,歼35是单发还是双发

小编推荐

当前文章：http://m.lilz.cn/KQA/detail/jjnvos.html

AI员工将进入企业，新一代AI芯片崭露头角！启明创投年度AI十大展望发布

Top

小编推荐

相关阅读

网友评论