TEMPO
Temporal Event Modeling for Perception & Organization
Modelos multimodais treinados na previsão do próximo token ou objetivos contrastivos desenvolvem representações fortes de quadro único e contexto curto. Eles não aprendem a estrutura temporal do evento. Eles não modelam como os estados semânticos transitam ao longo do tempo, quais dependências causais conectam os eventos ou como a intenção se propaga através de uma sequência. Estas propriedades não emergem de forma fiável apenas da escala – requerem sinais de supervisão e alvos de representação explicitamente concebidos em torno da estrutura temporal.
TEMPO pesquisa representações de eventos temporais aprendidas para sequências multimodais. A hipótese central é que o raciocínio multimodal confiável de longo horizonte requer modelagem explícita de limites de eventos, dependências causais e transições de estado semântico como objetos representacionais de primeira classe - não como correlatos implícitos de características de nível de quadro. Desenvolvemos e avaliamos essas representações usando artefatos STR como alvos de supervisão, que fornecem sinal de treinamento semanticamente denso e temporalmente estruturado a um custo significativamente menor do que os objetivos de geração de espaço de pixel ou espaço latente.
O treinamento em decisões humanas reais na produção – em vez de benchmarks sintéticos ou vídeos copiados da web – é uma escolha metodológica deliberada. As decisões editoriais humanas codificam o raciocínio temporal implícito: o que importa, quando importa e por que se relaciona com o que o precedeu. Este sinal não está disponível em conjuntos de dados de vídeo padrão e não é reproduzível fora de uma superfície de implantação de produção.
O programa é executado em três etapas, cada uma produzindo artefatos de pesquisa integrados à produção antes do início da próxima.
Etapa 1: Arquitetura de representação de eventos temporais. Arnês de avaliação de contexto longo projetado para coerência causal e consistência semântica sob mudança de distribuição. Integração de produção para medição no mundo real contra sinal humano ao vivo.
Etapa 2: Generalização entre domínios de representações temporais. Robustez sob perturbação de entrada e escala de comprimento de contexto. Avaliação em relação às linhas de base multimodais externas através do IMU.
Estágio 3: Raciocínio sequencial de longo horizonte em contextos multimodais estendidos. Transferência entre tarefas de representações temporais além do domínio de treinamento. Divulgação externa seletiva alinhada com a estratégia de PI e parceria.