
是新朋友吗?记得先点蓝字“锌刻度”关注我哦~
每日一篇科技财经深度调查
走进商业背后的故事

全双工模式才是王道
撰文/ 陈邓新
编辑/ 李 季
排版/ Annalee
豆包大模型,又上新了。
2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。
这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。
而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放自如的聊天搭子,活人感跃然纸上。
显而易见,AI应用“一哥”如虎添翼了。
活人感才是语音交互的核心竞争力
语音交互,成为互联网竞争的主战场。
起初,人类触达数字世界交互方式为命令行;之后,图形界面接棒,造就了PC的辉煌;等到触控起势,移动互联网的序幕也随之拉开。
如今,交互方式又有了新范式。
AI时代,语音交互走到了C位,不再是一个可有可无的辅助功能,而是提升交互效率、改变交互形态的核心载体。
皆因,语言才是人类表达意图的最短路径。
如此一来,基于AI技术的语音交互正在打破现实世界与数字世界的交流壁垒,通过颠覆使用习惯的方式完成交互跃迁。
问题在于,传统的语音交互是半双工模式。
半双工模式之下,同一个时间段内只有一个动作发生,用户说话了则AI只能听着,反之亦然,这个过程一板一眼,不容丝毫偏差。
通俗易懂地说,AI在语音交互的过程中缺乏活人感。
此背景下,哪怕语音识别与自然语言理解两大技术成熟,语音识别准确率接近人类水平,也没有让传统的语音交互出圈。
一名互联网观察人士告诉锌刻度:“半双工模式无法打断正在进行的说话、难以过滤复杂环境的杂音、没法感知用户的正常停顿等,容易出现抢话、跑题等令人尴尬的问题,严重影响了用户的交互体验,直白地说就是AI彬彬有礼却无法与用户共情。”

Seeduplex的全双工模式,则有效解决了上述问题。
全双工之下,同一个时间段内用户与AI可以双向交流,即用户可以随时插话与打断,AI也可以持续倾听与及时响应。
在此过程中,Seeduplex进行全局声学环境感知,精准筛选出用户与模型交互的真正声音,过滤背景带来的各种干扰声,从而将误回复率与误打断率降低了一半,用户无需提高音量或寻找安静角落,即可进行高质量的对话。
精准抗干扰之外,Seeduplex还具备动态判停能力。
通过联合语音和语义特征,综合判断用户意图,面对用户的思考犹豫,模型可以耐心倾听;在用户说完后,又可以快速响应,从而抢话的概率相对降低了40%。
对此,一名专业人士表示:“通过语速、语调、语义的综合考虑,动态判停可以共情式倾听用户,理解用户的停顿到底是在思考,还是真正把话说完了,这才是Seeduplex最大的竞争优势。”
一言以蔽之,Seeduplex成为一个有温度、有深度、有人格、有灵魂的交互主体,依托活人感走了一条差异化竞争的道路。
毕竟,活人感才是语音交互的核心竞争力。
率先突破的为何是豆包
全双工模式堪称降维打击,自然成为行业追逐的焦点,可唯独豆包大模型成为行业“吃螃蟹”的第一人,并非偶然。
一方面,语音交互一直是豆包的底色。
自推出以来,语音交互就成为豆包用户体验的核心支柱,其即时互动感颇受年轻人的青睐,进而营造了高粘性、正循环的社交氛围。
由此一来,豆包成为AI应用赛道的“一哥”。
QuestMobile的数据显示,截至2025年9月,AI应用市场移动端、PC端月活跃用户数分别达到7.29亿、2.00亿;其中,排名第一的豆包的月活跃用户规模为1.72亿。
华熙生物董事长赵燕表示:“豆包这些AI,是生活的一部分,工作的一部分。重复、需要耗时耗力的一些事儿,我会让豆包来做。AI给我们带来的是业务的重塑,原来可能几十个人的团队要干两年,现在可能(只需要)五个小时。”
正因为如此,豆包的语音交互生态每天都在源源不断产出海量的真实数据,为孵化Seeduplex提供了肥沃的土壤,其训练语料的优势无法比拟。
另外一方面,豆包大模型的底蕴深厚。
豆包大模型2024年5月的日均Token使用量为1200亿,到了2026年3月日均Token使用量已突破120万亿,足足增长了1000倍。
须知,Token使用量是衡量AI发展速度的核心指标。
这意味着,豆包大模型不断技术迭代,从可用走向好用,为半双工豆包端到端语音模型迭代为原生全双工语音大模型Seeduplex创造了良好的条件。
火山引擎总裁谭待表示:“只有大的调用量,才能打磨出好模型。只有在真实场景中落地,用的人越多,调用量越大,模型才会越来越好。”

具体来看,为了让全双工成功落地,Seeduplex在模型框架设计、算法优化、工程性能与稳定性上下了一番功夫。
譬如,在模型框架设计上,放弃了经典的“ASR(语音转文本)→LLM(大脑思考生成回复)→TTS(语音合成)”模型架构,设计了更贴合语音实时对话原生特性的模型架构,使模型能够直接从数据中学习语音与语义的一体化表达和节奏控制,显著提升了交互自然度。
再譬如,活人感与对话智能、超低延迟、对话节奏控制、强抗干扰能力与指向性理解等指标息息相关,因而需要依托海量语音数据进行大规模预训练,并通过多能力、多任务的后训练体系,才可以达到多维能力协同进化的目的。
合力之下,Seeduplex攻克了全双工语音的数据构建、超低时延与模型效果协同优化等核心技术难题,打开语音交互的新边界。
测试数据显示,相比上一代半双工豆包端到端语音模型,Seeduplex的判停MOS分提高了8%,对话流畅度MOS分提升了12%。
智能座舱迈入语音交互时代
随着语音交互从半双工走向全双工,可以进一步赋能教育、直播、营销、客服等行业,释放更大的生产力。
上述行业有一个共同的特征,即在语音交互的过程中需要避免机械感,从而增加用户的沉浸感与参与感,最终提高用户的信任度与满意度。
不难看出,Seeduplex的出现不啻一场及时雨。
尤为值得一提的是,随着汽车全面拥抱智能座舱,汽车正在撕下代步的标签,成为真正意义上的“第三空间”,也成为语音交互落地的最佳场景。
事实上,无需触控、按键、旋转,通过口头指令即可控制打开音乐、降低车窗、调整温度、设置导航等日常操作,因而语音交互逐渐取代了传统的人机界面。
不难看出,语音大模型成为智能座舱比拼的关键所在。
佐思汽研的数据显示,车载大模型2025年1月的渗透率为10.8%,到了2025年12月已攀升至38.6%,走高的势头肉眼可见。
其中,豆包大模型拔得头筹。
公开资料显示,豆包大模型覆盖赛力斯、吉利汽车、长城汽车、捷途汽车、智己汽车等20余家车企,2025 年新上市车型搭载量位居行业第一。
以别克至境E7为例,其与豆包大模型进行了全链路共创模式,在高速噪声、多音区等复杂环境下,将语音识别准确率提升至98%,复杂指令理解超过95%。

火山引擎汽车总经理杨立伟表示:“我们的合作,不是‘大模型上车’,而是‘大模型为车定制’。”
眼下,Seeduplex助阵,豆包可以更好地适配智能座舱场景,既能在低延迟条件下实现对话,克服听不准、听不清、反应迟钝等传统痛点,也能通过用户的语调、语速、语义,判断用户的情绪,并给出积极的回应,成为一个可以提供情绪价值的开车搭子。
简而言之,豆包从助手化身为助理。
与此同时,在Seeduplex赋能之下,智能座舱可以“像人一样思考、像人一样交流、像人一样成长”,有了更大的想象空间与商业价值。
总而言之,全双工语音技术走出了实验室,全面领先当下主流的半双工语音技术,未来不但会重新定义AI应用的用户体验,还可能孕育全新的语音交互商业模式。
那么,豆包有了更大的势能。
END

陈邓新
邮箱:cdx@cpcw.com
简介:投资改变生活
锌刻度
每日一篇科技财经深度调查

扫描二维码 | 关注我们
商务合作:13594102904
13896157010
转载微信:Shamy_xu
喜马拉雅:锌刻度漫谈(ID:30888705)
我们关注大时代的商业故事、科技互联网行业的发展趋势及动态。
36氪优质内容奖、商业新知年度十佳创作者、最澎湃创作者、蓝鲸财经年度浑水号优质内容创作者、新浪科技创事记年度评选年度机构作者、澎湃新闻最澎湃作者奖、钛媒体年度作者人气奖、今日头条青云奖连续月度前十、澎湃新闻湃客科技领域连续第一、百家榜科技榜上榜账号。
入驻平台
虎嗅 | 36氪 | 澎湃 | 界面 | 新浪 | 知乎 | 雪球
钛媒体 | 凤凰号 | 新知网 | 百家号 | 网易号
搜狐号 | 企鹅号 | 格隆汇 | 大鱼号
蓝鲸财经 | 观察者网 | 今日头条 | 一点资讯
商务合作
如您有相关合作需求,
请联系:13594102904,13896157010。
我们将及时与您对接沟通。
读者互动
如想获取一手资讯/硬核报告/作者交流,欢迎读者加微信troisx33,回复“读者”一键加群!
交流爆料
如您对科技互联网或商业财经有着深入了解,并有相关线索或对话需求,请联系后台或邮箱:19764969@qq.com
我们将及时与您对接沟通。
点小花花,让他们知道你“在看”我

免责声明:所有平台仅提供服务对接功能,资讯信息、数据资料来源于第三方,其中发布的文章、视频、数据仅代表内容发布者个人的观点,并不代表泡财经平台的观点,不构成任何投资建议,仅供参考,用户需独立做出投资决策,自行承担因信赖或使用第三方信息而导致的任何损失。投资有风险,入市需谨慎。

迁址公告
古东管家APP
关于我们
请先登录后发表评论