TEMPO
Temporal Event Modeling for Perception & Organization
Los modelos multimodales entrenados en la predicción del siguiente token u objetivos contrastantes desarrollan sólidas representaciones de cuadro único y de contexto corto. No aprenden la estructura temporal de los eventos. No modelan cómo los estados semánticos transitan a lo largo del tiempo, qué dependencias causales conectan los eventos o cómo se propaga la intención a través de una secuencia. Estas propiedades no surgen de manera confiable únicamente de la escala: requieren señales de supervisión y objetivos de representación diseñados explícitamente en torno a una estructura temporal.
TEMPO investiga representaciones de eventos temporales aprendidas para secuencias multimodales. La hipótesis central es que el razonamiento multimodal confiable a largo plazo requiere un modelado explícito de límites de eventos, dependencias causales y transiciones de estados semánticos como objetos representacionales de primera clase, no como correlatos implícitos de características a nivel de marco. Desarrollamos y evaluamos estas representaciones utilizando artefactos STR como objetivos de supervisión, que proporcionan una señal de entrenamiento semánticamente densa y estructurada temporalmente a un costo significativamente menor que los objetivos de generación de espacio de píxeles o de espacio latente.
La capacitación sobre decisiones humanas reales en producción, en lugar de puntos de referencia sintéticos o videos extraídos de la web, es una elección metodológica deliberada. Las decisiones editoriales humanas codifican un razonamiento temporal implícito: qué importa, cuándo importa y por qué se relaciona con lo que lo precedió. Esta señal no está disponible en conjuntos de datos de video estándar y no es reproducible fuera de una superficie de implementación de producción.
El programa se ejecuta en tres etapas, cada una de las cuales produce artefactos de investigación integrados en la producción antes de que comience la siguiente.
Etapa 1: Arquitectura de representación de eventos temporales. Arnés de evaluación de contexto largo diseñado para lograr coherencia causal y consistencia semántica bajo cambio de distribución. Integración de producción para mediciones del mundo real frente a señales humanas en vivo.
Etapa 2: Generalización entre dominios de representaciones temporales. Robustez ante perturbaciones de entrada y escalamiento de longitud de contexto. Evaluación contra líneas base multimodales externas a través de la UMI.
Etapa 3: Razonamiento secuencial de largo horizonte en contextos multimodales extendidos. Transferencia entre tareas de representaciones temporales más allá del dominio de entrenamiento. Divulgación externa selectiva alineada con la propiedad intelectual y la estrategia de asociación.