WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开
西风 发自 凹非寺
量子位 | 公众号 QbitAI
WAIC现场,这个展台被观众挤爆了!
凑近一瞧,好家伙,展台里摆满了各式新奇的“AI玩具”,它们有个共同点——
全都能实时与玩家流畅对话,延迟极低
比如这款“AI毛球”,活脱脱一个电子宠物,不仅能实时理解你的话语,还能默默陪伴左右,提供满满的情绪价值:
视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
此外,现场还有数字人全息仓、能对话的卡皮巴拉等,赚足了观众眼球:
其实它们有个共同的“幕后推手”,这些产品的实时对话能力,全都依托于声网的对话式AI引擎
更值得一提的是,声网刚宣布,他们的对话式AI引擎已完成全新升级
新增选择性注意力锁定功能,让它在嘈杂会场也能精准捕捉你的声音,实现“只听你说”;同时新增视觉理解能力;还能与主流数字人方案无缝集成
一句话概括,新版对话式AI引擎,变得更“耳聪目明”了。
要知道,声网是做RTE(Real Time Engagement,实时互动)技术起家的,在音视频处理和实时通信领域深耕多年,现在转身做多模态AI交互,属实是“专业对口”,一出手就有狠活。
这次对话式AI引擎升级背后到底带来了哪些AI交互新体验?接下来就为你详细揭秘。
量子位拿到demo app,直接体验了这波升级。支持事先调整预设
使用对话式AI第一步,自然是考验它能否从各种干扰中准确识别出用户的指令,这直接决定了AI对话体验的好坏。
声网新版对话式AI引擎的第一个杀手锏,就是选择性注意力锁定功能。
刚开始对话时屏幕上就会提醒用户“在对话初期大声、清晰地说话”,由此它就会将你的声音锁定
在后续对话中面对环境人声和噪声干扰,它能够根据锁定用户的声纹特征精准识别,屏蔽95%的干扰。即使在复杂的声音环境中,它也能准确捕捉到你的每一个指令。
来看实测对比,当用户在对话初期没有大声清晰地说话,导致声音未被锁定时,AI常会受到周围的环境人声、电视声、音乐声干扰,出现误识别或响应延迟的情况。
(PS:我们同时播放电视剧、歌曲、短视频作为干扰。)
视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
而开启选择性注意力锁定后,即使旁边有其他人在交谈或音频播放,AI依然能够精准锁定目标用户的声音。
视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
询问旅游规划等需要它长时间回答的问题,它也不会因为环境干扰音而终止或是暂停对话:
视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
如果说声音识别是AI的“耳朵”,那么视觉理解就是AI的“眼睛”。而最新版引擎为AI也实现了这样的能力,可以实时看图识物
就像和真人打电话一样,打开摄像头即可使用:
我们向它展示了一张房间平面草图,它不仅能够正确识别出这是什么,还能准确指出设计中的结构特点,额外提出了一些注意事项。
视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
当我们展示一张技术报告中的图表时,它同样能够理解其中逻辑,并用自然语言解释。
视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
测试中我们还发现,声网新版对话式AI引擎具有很强的上下文感知能力,当我们连续提问几个问题后,它能够理解问题之间的关联性,并给出连贯的分析。
第三个重要升级是数字人功能。
据介绍,新版引擎支持与主流数字人方案的无缝集成,包括商汤数字人等业界领先方案。
在预设中即可挑选配置:
在与数字人的对话中,它不仅能够准确响应语音指令,还能通过面部表情和肢体语言传达更丰富的信息
当我们询问复杂问题时,数字人会露出思考的表情;在解释概念时,还会配合手势动作,整个交互过程自然流畅。
例如询问“出门露营要带些什么东西?有什么注意事项?”数字人立马绘声绘色讲解:
视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ
这种情感同步让人机交互体验更加自然真实。
总之,声网此次对其对话式AI引擎的升级,通过融合多模态打造了更加沉浸式的AI实时交互体验,而这也正是其技术实力的集中展现。
接下来划重点:这种能力可轻松接入DeepSeek等任意大模型。只要与OpenAI接口协议兼容,就能原生支持,且接入仅需两行代码
并且价格更是低至每分钟0.098元,还不到一毛钱。
实际上,声网首版对话式AI引擎早在今年3月份就上线了,凭借效果优、开发接入极简、灵活性强,已在各行各业落地。
你可能都没发现,我们日常熟知的不少AI应用,背后都有它
在教育领域,豆神AI近期宣布将推出AI超拟人多对一直播课,课程采用真人教师与AI教师“双师”协作体系,实现千人千面的定制化训练与辅导,精准契合不同学生的学习需求。
在声网对话式AI引擎的加持下,AI教师能够在AI实时训练体系、课堂答疑、情境创设、AI实时判卷等环节中,全程与学生展开低延时、自然流畅的对话交互。
声网技术支撑不仅保障了AI语音交互的实时性和稳定性,更让学生在与AI教师的互动中获得如真人般自然的学习体验。
智能硬件领域,更是令人眼前一亮。
我们前面所展示“AI毛球”是Robopoet珞博智能所打造的首款AI情感陪伴产品“芙崽Fuzozo”。
传统陪伴机器人常给人冷冰冰的机械感,难以让用户产生情感联结。而芙崽不同,用户每日互动中可与芙崽积累亲密度,由此孕育出的每只芙崽都拥有独特性格,与用户形成独一无二的专属情感羁绊。
通过与声网的合作,芙崽AI交互的实时性和稳定性得到大幅优化。与此同时,声网的端到端解决方案,也从软硬件全方位为珞博智能提供支持。
同样令人印象深刻的,还有Enabot(赋之科技)的智能家庭陪伴机器人EBO Air 2 Plus
Enabot与声网合作,依托声网的对话式AI引擎技术,EBO能精准识别用户的打断意图,即便周围环境嘈杂,也能锁定对话人声,确保识别准确;同时,借助声网高质量的实时音视频服务,它还支持双向视频通话,用户无论身处全球何地,都能与家人实现零距离视频交流。
除此之外,无论是MiniMax Chat星野的语音对话功能,还是智谱清言的视频通话功能商汤商量的实时音视频交互,背后统统都有声网的技术支撑。
从娱乐聊天到知识问答,声网的技术方案已覆盖广泛场景。
这些成功应用案例不仅证明了声网对话式AI引擎在不同场景下的适应性和实用性,验证了其技术的可靠性,也为更多企业提供了可借鉴的落地经验。
那么为何大家都选择了声网?大概是源于声网多年的RTE基因。
近期国内外AI厂商持续加大多模态领域的投入,融合视觉、语音等能力的AI应用不断涌现,再加上WAIC现场的种种迹象,一个趋势非常之明显:
单一模态的AI交互正在成为历史,多模态AI交互已是明确的未来方向。
用户不再满足于只能“听”或只能“说”的AI,更期待的是能够像人类一样,通过视觉、听觉等多种感官实时理解世界的智能体。
作为实时互动技术领域的领军企业,声网在多模态AI交互方面天然具有技术优势。多年来在RTE领域的深耕,为其积累了丰富的音视频处理、低延迟传输、多媒体融合等核心技术能力。
更关键的是,声网做多模态AI交互不是技术的简单叠加,而是始终致力于提升对话式AI的交互体验。每一个功能升级背后,都指向同一个目标:
让AI对话更具真实感和自然感
无论是选择性注意力锁定带来的精准语音识别,还是视觉理解赋予AI的观察能力,抑或是数字人支持创造的情感化交互,这些功能都解决了用户在实际使用中遇到的真实痛点。
这种以用户体验为核心的产品思路,可能比单纯追求技术指标更能决定产品的市场竞争力。
可以预见,随着多模态AI应用的普及,那些能够提供低延迟、高稳定性、自然交互体验的技术平台,将在下一轮竞争中占据更加有利的位置。
1、冯德莱恩和特朗普在两大关键问题上表述矛盾,落实仍有变数,冯德莱恩生活照
2、事关900多万名退休人员!广东公布2025年基本养老金调整办法,广东省今年退休养老金方案
3、辉煌60载 魅力新西藏丨水润山绿 拉萨打造生态宜居高原新城