TEMPO
Temporal Event Modeling for Perception & Organization
Multimodale Modelle, die auf Next-Token-Vorhersage oder kontrastive Ziele trainiert wurden, entwickeln starke Einzelbild- und Kurzkontextdarstellungen. Sie lernen keine zeitliche Ereignisstruktur. Sie modellieren nicht, wie sich semantische Zustände im Laufe der Zeit ändern, welche kausalen Abhängigkeiten Ereignisse verbinden oder wie sich Absichten durch eine Sequenz ausbreiten. Diese Eigenschaften ergeben sich nicht zuverlässig allein aus der Skalierung – sie erfordern Überwachungssignale und Darstellungsziele, die explizit auf die zeitliche Struktur abgestimmt sind.
TEMPO erforscht erlernte zeitliche Ereignisdarstellungen für multimodale Sequenzen. Die zentrale Hypothese ist, dass zuverlässiges multimodales Denken über einen langen Zeitraum eine explizite Modellierung von Ereignisgrenzen, kausalen Abhängigkeiten und semantischen Zustandsübergängen als erstklassige Repräsentationsobjekte erfordert – und nicht als implizite Korrelate von Merkmalen auf Frame-Ebene. Wir entwickeln und bewerten diese Darstellungen unter Verwendung von STR-Artefakten als Überwachungsziele, die ein semantisch dichtes, zeitlich strukturiertes Trainingssignal zu deutlich geringeren Kosten als Pixelraum- oder Latentraum-Generierungsziele liefern.
Schulungen zu echten menschlichen Entscheidungen in der Produktion – und nicht zu synthetischen Benchmarks oder Web-Scraping-Videos – sind eine bewusste methodische Entscheidung. Menschliche redaktionelle Entscheidungen kodieren implizite zeitliche Überlegungen: Was ist wichtig, wann ist es wichtig und warum bezieht es sich auf das, was ihm vorausging? Dieses Signal ist in Standard-Videodatensätzen nicht verfügbar und kann außerhalb einer Produktionsumgebung nicht reproduziert werden.
Das Programm läuft in drei Phasen ab, wobei in jeder Phase Forschungsartefakte produziert werden, die in die Produktion integriert werden, bevor die nächste beginnt.
Stufe 1: Architektur der zeitlichen Ereignisdarstellung. Langkontext-Bewertungssystem, das auf kausale Kohärenz und semantische Konsistenz bei Verteilungsverschiebungen ausgelegt ist. Produktionsintegration für reale Messungen anhand menschlicher Live-Signale.
Stufe 2: Domänenübergreifende Verallgemeinerung zeitlicher Darstellungen. Robustheit bei Eingabestörungen und Kontextlängenskalierung. Bewertung anhand externer multimodaler Baselines durch das UMI.
Stufe 3: Sequentielles Denken über einen langen Horizont hinweg über erweiterte multimodale Kontexte hinweg. Aufgabenübergreifende Übertragung zeitlicher Darstellungen über den Trainingsbereich hinaus. Selektive externe Offenlegung im Einklang mit der IP- und Partnerschaftsstrategie.