WAIC现场最“聪明”展台！AI对话眼睛耳朵能力全打开

西风发自凹非寺
量子位 | 公众号 QbitAI

WAIC现场，这个展台被观众挤爆了！

凑近一瞧，好家伙，展台里摆满了各式新奇的“AI玩具”，它们有个共同点——

全都能实时与玩家流畅对话，延迟极低

比如这款“AI毛球”，活脱脱一个电子宠物，不仅能实时理解你的话语，还能默默陪伴左右，提供满满的情绪价值：

视频链接：https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

此外，现场还有数字人全息仓、能对话的卡皮巴拉等，赚足了观众眼球：

其实它们有个共同的“幕后推手”，这些产品的实时对话能力，全都依托于声网的对话式AI引擎

更值得一提的是，声网刚宣布，他们的对话式AI引擎已完成全新升级

新增选择性注意力锁定功能，让它在嘈杂会场也能精准捕捉你的声音，实现“只听你说”；同时新增视觉理解能力；还能与主流数字人方案无缝集成

一句话概括，新版对话式AI引擎，变得更“耳聪目明”了。

要知道，声网是做RTE（Real Time Engagement，实时互动）技术起家的，在音视频处理和实时通信领域深耕多年，现在转身做多模态AI交互，属实是“专业对口”，一出手就有狠活。

这次对话式AI引擎升级背后到底带来了哪些AI交互新体验？接下来就为你详细揭秘。

三大升级，AI听得准看得清

量子位拿到demo app，直接体验了这波升级。支持事先调整预设

听力开挂：嘈杂环境里只听你的话

使用对话式AI第一步，自然是考验它能否从各种干扰中准确识别出用户的指令，这直接决定了AI对话体验的好坏。

声网新版对话式AI引擎的第一个杀手锏，就是选择性注意力锁定功能。

刚开始对话时屏幕上就会提醒用户“在对话初期大声、清晰地说话”，由此它就会将你的声音锁定

在后续对话中面对环境人声和噪声干扰，它能够根据锁定用户的声纹特征精准识别，屏蔽95%的干扰。即使在复杂的声音环境中，它也能准确捕捉到你的每一个指令。

来看实测对比，当用户在对话初期没有大声清晰地说话，导致声音未被锁定时，AI常会受到周围的环境人声、电视声、音乐声干扰，出现误识别或响应延迟的情况。

（PS：我们同时播放电视剧、歌曲、短视频作为干扰。）

视频链接：https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

而开启选择性注意力锁定后，即使旁边有其他人在交谈或音频播放，AI依然能够精准锁定目标用户的声音。

视频链接：https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

询问旅游规划等需要它长时间回答的问题，它也不会因为环境干扰音而终止或是暂停对话：

视频链接：https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

视觉理解，实时看图识物

如果说声音识别是AI的“耳朵”，那么视觉理解就是AI的“眼睛”。而最新版引擎为AI也实现了这样的能力，可以实时看图识物

就像和真人打电话一样，打开摄像头即可使用：

我们向它展示了一张房间平面草图，它不仅能够正确识别出这是什么，还能准确指出设计中的结构特点，额外提出了一些注意事项。

视频链接：https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

当我们展示一张技术报告中的图表时，它同样能够理解其中逻辑，并用自然语言解释。

视频链接：https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

测试中我们还发现，声网新版对话式AI引擎具有很强的上下文感知能力，当我们连续提问几个问题后，它能够理解问题之间的关联性，并给出连贯的分析。

数字人支持，对话更有“人情味”

第三个重要升级是数字人功能。

据介绍，新版引擎支持与主流数字人方案的无缝集成，包括商汤数字人等业界领先方案。

在预设中即可挑选配置：

在与数字人的对话中，它不仅能够准确响应语音指令，还能通过面部表情和肢体语言传达更丰富的信息

当我们询问复杂问题时，数字人会露出思考的表情；在解释概念时，还会配合手势动作，整个交互过程自然流畅。

例如询问“出门露营要带些什么东西？有什么注意事项？”数字人立马绘声绘色讲解：

视频链接：https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

这种情感同步让人机交互体验更加自然真实。

总之，声网此次对其对话式AI引擎的升级，通过融合多模态打造了更加沉浸式的AI实时交互体验，而这也正是其技术实力的集中展现。

接下来划重点：这种能力可轻松接入DeepSeek等任意大模型。只要与OpenAI接口协议兼容，就能原生支持，且接入仅需两行代码

并且价格更是低至每分钟0.098元，还不到一毛钱。

这么多眼熟的应用，背后竟都有它

实际上，声网首版对话式AI引擎早在今年3月份就上线了，凭借效果优、开发接入极简、灵活性强，已在各行各业落地。

你可能都没发现，我们日常熟知的不少AI应用，背后都有它

在教育领域，豆神AI近期宣布将推出AI超拟人多对一直播课，课程采用真人教师与AI教师“双师”协作体系，实现千人千面的定制化训练与辅导，精准契合不同学生的学习需求。

在声网对话式AI引擎的加持下，AI教师能够在AI实时训练体系、课堂答疑、情境创设、AI实时判卷等环节中，全程与学生展开低延时、自然流畅的对话交互。

声网技术支撑不仅保障了AI语音交互的实时性和稳定性，更让学生在与AI教师的互动中获得如真人般自然的学习体验。

智能硬件领域，更是令人眼前一亮。

我们前面所展示“AI毛球”是Robopoet珞博智能所打造的首款AI情感陪伴产品“芙崽Fuzozo”。

传统陪伴机器人常给人冷冰冰的机械感，难以让用户产生情感联结。而芙崽不同，用户每日互动中可与芙崽积累亲密度，由此孕育出的每只芙崽都拥有独特性格，与用户形成独一无二的专属情感羁绊。

通过与声网的合作，芙崽AI交互的实时性和稳定性得到大幅优化。与此同时，声网的端到端解决方案，也从软硬件全方位为珞博智能提供支持。

同样令人印象深刻的，还有Enabot（赋之科技）的智能家庭陪伴机器人EBO Air 2 Plus

Enabot与声网合作，依托声网的对话式AI引擎技术，EBO能精准识别用户的打断意图，即便周围环境嘈杂，也能锁定对话人声，确保识别准确；同时，借助声网高质量的实时音视频服务，它还支持双向视频通话，用户无论身处全球何地，都能与家人实现零距离视频交流。

除此之外，无论是MiniMax Chat星野的语音对话功能，还是智谱清言的视频通话功能商汤商量的实时音视频交互，背后统统都有声网的技术支撑。

从娱乐聊天到知识问答，声网的技术方案已覆盖广泛场景。

这些成功应用案例不仅证明了声网对话式AI引擎在不同场景下的适应性和实用性，验证了其技术的可靠性，也为更多企业提供了可借鉴的落地经验。

那么为何大家都选择了声网？大概是源于声网多年的RTE基因。

用RTE基因重塑AI交互体验

近期国内外AI厂商持续加大多模态领域的投入，融合视觉、语音等能力的AI应用不断涌现，再加上WAIC现场的种种迹象，一个趋势非常之明显：

单一模态的AI交互正在成为历史，多模态AI交互已是明确的未来方向。

用户不再满足于只能“听”或只能“说”的AI，更期待的是能够像人类一样，通过视觉、听觉等多种感官实时理解世界的智能体。

作为实时互动技术领域的领军企业，声网在多模态AI交互方面天然具有技术优势。多年来在RTE领域的深耕，为其积累了丰富的音视频处理、低延迟传输、多媒体融合等核心技术能力。

更关键的是，声网做多模态AI交互不是技术的简单叠加，而是始终致力于提升对话式AI的交互体验。每一个功能升级背后，都指向同一个目标：

让AI对话更具真实感和自然感

无论是选择性注意力锁定带来的精准语音识别，还是视觉理解赋予AI的观察能力，抑或是数字人支持创造的情感化交互，这些功能都解决了用户在实际使用中遇到的真实痛点。

这种以用户体验为核心的产品思路，可能比单纯追求技术指标更能决定产品的市场竞争力。

可以预见，随着多模态AI应用的普及，那些能够提供低延迟、高稳定性、自然交互体验的技术平台，将在下一轮竞争中占据更加有利的位置。

Top

1、冯德莱恩和特朗普在两大关键问题上表述矛盾，落实仍有变数,冯德莱恩生活照

2、事关900多万名退休人员！广东公布2025年基本养老金调整办法,广东省今年退休养老金方案

3、辉煌60载魅力新西藏丨水润山绿拉萨打造生态宜居高原新城

小编推荐

当前文章：http://m.lilz.cn/VQA/detail/errxeq.html

WAIC现场最“聪明”展台！AI对话眼睛耳朵能力全打开

三大升级，AI听得准看得清

听力开挂：嘈杂环境里只听你的话

视觉理解，实时看图识物

数字人支持，对话更有“人情味”

这么多眼熟的应用，背后竟都有它

用RTE基因重塑AI交互体验

Top

小编推荐

相关阅读

网友评论