TEMPO
Temporal Event Modeling for Perception & Organization
Les modèles multimodaux formés sur la prédiction du prochain jeton ou sur des objectifs contrastifs développent de solides représentations à image unique et à contexte court. Ils n'apprennent pas la structure des événements temporels. Ils ne modélisent pas la façon dont les états sémantiques évoluent dans le temps, quelles dépendances causales relient les événements ou comment l'intention se propage à travers une séquence. Ces propriétés n’émergent pas de manière fiable de la seule échelle : elles nécessitent des signaux de supervision et des cibles de représentation explicitement conçues autour de la structure temporelle.
TEMPO recherche des représentations d'événements temporels apprises pour des séquences multimodales. L’hypothèse centrale est qu’un raisonnement multimodal fiable à long horizon nécessite une modélisation explicite des limites des événements, des dépendances causales et des transitions d’état sémantique en tant qu’objets représentationnels de première classe – et non en tant que corrélats implicites de caractéristiques au niveau de la trame. Nous développons et évaluons ces représentations en utilisant des artefacts STR comme cibles de supervision, qui fournissent un signal d'entraînement sémantiquement dense et structuré temporellement à un coût nettement inférieur à celui des objectifs de génération d'espace de pixels ou d'espace latent.
La formation sur de véritables décisions humaines en production – plutôt que sur des références synthétiques ou des vidéos récupérées sur le Web – est un choix méthodologique délibéré. Les décisions éditoriales humaines encodent un raisonnement temporel implicite : ce qui compte, quand cela compte et pourquoi cela est lié à ce qui l’a précédé. Ce signal n'est pas disponible dans les ensembles de données vidéo standards et n'est pas reproductible en dehors d'une surface de déploiement de production.
Le programme se déroule en trois étapes, chacune produisant des artefacts de recherche intégrés à la production avant le début de la suivante.
Étape 1 : Architecture de représentation d’événements temporels. Exploitation d'évaluation à contexte long conçue pour la cohérence causale et la cohérence sémantique lors d'un changement de distribution. Intégration de la production pour des mesures réelles par rapport à un signal humain en direct.
Étape 2 : Généralisation inter-domaines des représentations temporelles. Robustesse sous perturbation d'entrée et mise à l'échelle de la longueur du contexte. Évaluation par rapport à des références multimodales externes via l'UMI.
Étape 3 : Raisonnement séquentiel à long horizon dans des contextes multimodaux étendus. Transfert inter-tâches de représentations temporelles au-delà du domaine de formation. Divulgation externe sélective alignée sur la stratégie de propriété intellectuelle et de partenariat.