现有AI都是假实时！Thinking Machines发布交互模型，离真正的贾维斯真的近了-华为JDC

Thinking Machines 发了一个新的交互模型，切入了一个更根本的问题：我们与 AI 交互的方式。它能够同时进行聆听、观察、说话、被打断、作出反应、在后台思考，以及调用工具。这一切并非靠语音转文字、轮次检测和各种智能体技巧拼接而成的流水线，而是一种原生的模型能力！如果这套机制能够实现，AI 将从“输入提示词、输出答案”的模式，转变为一种更像真正协同工作的体验。模型会注意到你的迟疑，会在看到情况时主动插话，会在一面听你说话时预判你的下一步行动。它不仅在变得更聪明，也在变得更善于维持与人之间自然流畅的对话。我们离真正的贾维斯更近了一步。Mira Murati的Thinking Machines Lab刚刚发布了新的研究成果：交互模型（interaction models）。核心思路：与其把实时交互功能拼接到原本按轮次工作的模型上，不如从头训练一个天生就能处理实时交互的模型。现在的AI，其实不是真实时用过语音AI的人都有这种感受：你必须说完，它才开始听。它说完，你才能接话。Murati把这个问题描述得很准确：当前的AI体验，往往感觉像是一场对话，只有在我们停止说话之后才真正开始。用户必须把想法攒成一批，不能指着东西说，甚至要把问题写得像发邮件一样。是人在适应模型，而不是模型适应人。问题出在架构层面。今天的模型是单线程感知现实的：用户没说完，模型就什么都感知不到；模型没生成完，感知就冻结，不接收任何新信息。这条人机协作的通道非常窄，人的知识、意图和判断，大量无法传递给模型；模型在做什么，人也很难随时介入理解。现有的解决方案是在模型外面套一个控制框架（harness），用语音活动检测等组件模拟打断、多模态输入、并发处理。但这些组件本身比模型要笨得多，天然限制了交互能力。比如"当我说错的时候打断我"或者"发现我代码里有bug就告诉我"，这类功能靠外挂根本做不到。更根本的矛盾在于：按照机器学习的苦涩教训，这些手工搭建的系统迟早会被通用能力的进步所超越。要让交互能力随着智能一起扩展，交互本身必须成为模型的一部分。从头训练，而不是外挂Thinking Machines的做法是训练一个原生支持实时交互的模型。系统由两部分组成：一个持续与用户保持双向交换的交互模型，加上一个异步运行的后台模型。交互模型负责实时感知和响应；当任务需要更深度的推理时，交互模型把任务委派给后台模型，后台模型在完成后把结果流式传回，交互模型再选择合适的时机把结果融入对话，而不是突兀地切换上下文。交互模型在整个过程中始终保持在线：接收新输入、回答追问、维持对话线索。这样的分工，让用户同时获得两种能力：非思考型模型的响应速度，以及推理模型的规划、工具调用和智能体工作流。交互模型本身也具备独立的智能，在交互基准和智能基准上都有竞争力。架构细节时间对齐的微轮次（Micro-Turns）交互模型以200毫秒为单位连续工作，交替处理200毫秒的输入和生成200毫秒的输出。输入和输出都被当作流来处理，没有人为设定的轮次边界。借助这个设计，模型可以在说话的同时听，比如西班牙语实时翻译成英语；也可以在看视频的同时说话，比如给体育比赛做实时解说。无编码器的早期融合（Encoder-free Early Fusion）大多数全模态模型需要分别训练独立的音频编码器（类似Whisper）和解码器（类似TTS模型）。Thinking Machines的方案是最小化预处理：音频信号以dMel格式输入，经过轻量嵌入层处理；图像切分为40×40的图块，由hMLP编码；音频解码器使用flow head。所有组件从头联合训练，与Transformer一体。这样的好处是，各种交互模式不再需要专门的控制框架，而是成为模型本身能力的自然延伸，并且可以随模型规模提升。推理优化200毫秒的分块意味着需要频繁、小批量的prefill和decode，现有的大语言模型推理库并不为此优化，每轮都有大量额外开销。Thinking Machines实现了流式会话（streaming sessions）：客户端把每个200毫秒的分块作为独立请求发送，推理服务器把这些分块追加到GPU显存中的持久序列里，避免频繁的内存重新分配和元数据计算。这一特性已向上游提交至SGLang。同时针对延迟和双向服务的形状做了内核优化，MoE内核采用gather+gemv策略替代标准的grouped gemm。训练器与采样器对齐Thinking Machines发现，训练器与采样器的逐位对齐（bitwise alignment）对训练稳定性和各组件调试都很有帮助。团队实现了批量无关的内核，端到端性能开销不超过5%。在通信内核方面，使用NVLS实现低延迟的All-Reduce和Reduce-Scatter，在Blackwell上具有确定性，并在序列并行和张量并行等不同并行策略之间实现逐位对齐。注意力机制的主要挑战是Split-KV，通过在decode和prefill之间保持一致的累积顺序来解决。安全性实时交互对安全的压力与按轮次交互不同。Thinking Machines的安全工作聚焦于两个方向：一是适合语音场景的拒绝方式。他们用TTS模型生成自然口语化的拒绝和过度拒绝训练数据，覆盖多种不允许的话题类别，让拒绝听起来自然但毫不妥协。二是长对话中的鲁棒性。使用自动化红队框架生成多轮拒绝数据，并与模型基于文本的拒绝行为保持高度一致。能做什么原生的交互能力，解锁了一系列此前需要外挂才能（或根本无法）实现的功能：无缝对话管理：模型隐式跟踪说话者是在思考、让步、自我修正还是在等待回应，无需独立的对话管理组件。口头和视觉插话：模型在合适的上下文中主动插话，而不是等用户说完。同时发言：用户和模型可以同时说话，比如实时翻译。时间感知：模型对已流逝的时间有直接感知。同步工具调用、搜索和生成式UI：在和用户说话、倾听的同时，模型可以并发地搜索、浏览网页或生成界面，并在需要时把结果融入对话。基准测试Thinking Machines发布了他们的模型TML-Interaction-Small，一个276B参数、12B激活的MoE模型。在交互质量方面，他们使用FD-bench进行评测，该基准针对交互性设计，覆盖用户打断、用户反馈、和他人交谈、背景语音等场景。在智能方面，使用Audio MultiChallenge基准。结果显示，TML-Interaction-Small是第一个在强智能/指令遵循和强交互性上同时表现优秀的模型。现有的交互基准还没能捕捉到这个模型带来的质性跃升。为此，Thinking Machines还构建了几个内部基准：时间感知和同步发言TimeSpeak：测试模型能否在用户指定的时间点开口说话，并输出正确内容。例如：让我练习呼吸，每4秒提醒我呼气吸气，直到我让你停。CueSpeak：测试模型是否在正确时机、以语义正确的回应发言。数据集专门设计为模型需要和用户同时说话才能拿到满分。例如：每当我切换语言，立刻给我纠正原语言中正确的词。视觉主动性现有商用实时API通过纯音频的对话管理框架做轮次检测，只响应语音轮次，无法在视觉世界发生变化时主动开口。比如当用户说请数我做了几个俯卧撑时，这类系统可能回应好的之后就保持沉默，因为没有音频触发信号。Thinking Machines改编了三个基准来评测视觉主动性：• RepCount-A：包含重复动作视频，改编为在线计数任务。模型需要跟踪动作并在正确时机报数。• ProactiveVideoQA：包含在特定时刻才能回答的问题，测试模型能否主动在正确时机给出答案。留空不说可得25分基础分，正确回答才能得高分，错误回答有惩罚。• Charades：标准时序动作定位基准，模型需要说出动作开始和结束的时间点。目前没有任何现有模型能有效完成上述任务，包括GPT Realtime-2和各类思考型高端模型，它们要么保持沉默，要么给出错误答案。局限与未来计划Thinking Machines也坦诚列出了当前的局限：• 长会话方面，音频和视频会快速积累上下文，流式会话设计能较好处理短中期交互，但超长会话仍需仔细管理上下文，这是当前的重点方向。• 计算与部署方面，低延迟的音视频流式传输需要稳定的网络连接，连接质量差会显著降低体验。• 模型规模方面，TML-Interaction-Small是276B参数的MoE，激活参数12B。团队预计交互能力会随模型规模提升，但更大的预训练模型目前速度太慢，无法在这一场景部署。计划今年晚些时候发布更大的模型。• 后台智能体方面，除了实时交互，智能体能力同样是核心。Thinking Machines认为交互模型和后台智能体如何更好地协同，目前才刚刚触及表面。