TEMPO
Temporal Event Modeling for Perception & Organization
在下一个标记预测或对比目标上训练的多模态模型开发出强大的单帧和短上下文表示。他们不学习时间事件结构。它们没有对语义状态如何随时间转换、连接事件的因果依赖关系或意图如何通过序列传播进行建模。这些属性并不能仅从规模中可靠地显现出来——它们需要围绕时间结构明确设计的监督信号和表示目标。
TEMPO 研究学习多模态序列的时间事件表示。中心假设是,可靠的长视野多模态推理需要对事件边界、因果依赖性和语义状态转换进行显式建模,将其作为一流的表示对象,而不是作为帧级特征的隐式关联。我们使用 STR 工件作为监督目标来开发和评估这些表示,这些表示以比像素空间或潜在空间生成目标低得多的成本提供语义密集、时间结构化的训练信号。
对生产中真实的人类决策进行培训——而不是综合基准或网络抓取的视频——是一种深思熟虑的方法选择。人类的编辑决策编码隐含的时间推理:什么重要,什么时候重要,以及为什么它与之前的内容相关。该信号在标准视频数据集中不可用,并且在生产部署表面之外不可再现。
该计划分三个阶段运行,每个阶段都会在下一个阶段开始之前将研究成果集成到生产中。
第一阶段:时间事件表示架构。长上下文评估工具专为分布转移下的因果一致性和语义一致性而设计。针对实时人体信号进行实际测量的生产集成。
第 2 阶段:时间表示的跨域泛化。输入扰动和上下文长度缩放下的鲁棒性。通过 UMI 根据外部多模式基线进行评估。
第三阶段:跨扩展多模态上下文的长视野顺序推理。训练域之外的时间表示的跨任务传输。选择性外部披露与知识产权和合作伙伴战略相一致。