Unsere Forschung.

Rkive erforscht die Grundlagen zuverlässiger multimodaler KI in der Produktion: wie Modelle und Systeme Video, Audio und Bilder über die Zeit hinweg verstehen, entscheiden und ausführen. Wir haben Continuity Models als eigenes Paradigma eingeführt und verwenden time models als allgemeinere, zugänglichere Bezeichnung.

"Continuity models", weil diese Modelle Kontinuität aufrechterhalten: zeitlich, logisch und operativ. Der Begriff hat eine doppelte Bedeutung: zeitliche Kontinuität als Mechanismus, logische Kontinuität als Ergebnis.

Das ist nicht nur ein Forschungslabel: derselbe Kontinuitäts-Stack ist bereits in Studio und Base produktiv im Einsatz.

TEMPO

Temporal Event Modeling for Perception & Organization

In Forschung

Multimodale Modelle, die auf Next-Token-Vorhersage oder kontrastive Ziele trainiert wurden, entwickeln starke Einzelbild- und Kurzkontextdarstellungen. Sie lernen keine zeitliche Ereignisstruktur. Sie modellieren nicht, wie sich semantische Zustände im Laufe der Zeit ändern, welche kausalen Abhängigkeiten Ereignisse verbinden oder wie sich Absichten durch eine Sequenz ausbreiten. Diese Eigenschaften ergeben sich nicht zuverlässig allein aus der Skalierung – sie erfordern Überwachungssignale und Darstellungsziele, die explizit auf die zeitliche Struktur abgestimmt sind.

TEMPO erforscht erlernte zeitliche Ereignisdarstellungen für multimodale Sequenzen. Die zentrale Hypothese ist, dass zuverlässiges multimodales Denken über einen langen Zeitraum eine explizite Modellierung von Ereignisgrenzen, kausalen Abhängigkeiten und semantischen Zustandsübergängen als erstklassige Repräsentationsobjekte erfordert – und nicht als implizite Korrelate von Merkmalen auf Frame-Ebene. Wir entwickeln und bewerten diese Darstellungen unter Verwendung von STR-Artefakten als Überwachungsziele, die ein semantisch dichtes, zeitlich strukturiertes Trainingssignal zu deutlich geringeren Kosten als Pixelraum- oder Latentraum-Generierungsziele liefern.

Schulungen zu echten menschlichen Entscheidungen in der Produktion – und nicht zu synthetischen Benchmarks oder Web-Scraping-Videos – sind eine bewusste methodische Entscheidung. Menschliche redaktionelle Entscheidungen kodieren implizite zeitliche Überlegungen: Was ist wichtig, wann ist es wichtig und warum bezieht es sich auf das, was ihm vorausging? Dieses Signal ist in Standard-Videodatensätzen nicht verfügbar und kann außerhalb einer Produktionsumgebung nicht reproduziert werden.

Das Programm läuft in drei Phasen ab, wobei in jeder Phase Forschungsartefakte produziert werden, die in die Produktion integriert werden, bevor die nächste beginnt.

Stufe 1: Architektur der zeitlichen Ereignisdarstellung. Langkontext-Bewertungssystem, das auf kausale Kohärenz und semantische Konsistenz bei Verteilungsverschiebungen ausgelegt ist. Produktionsintegration für reale Messungen anhand menschlicher Live-Signale.

Stufe 2: Domänenübergreifende Verallgemeinerung zeitlicher Darstellungen. Robustheit bei Eingabestörungen und Kontextlängenskalierung. Bewertung anhand externer multimodaler Baselines durch das UMI.

Stufe 3: Sequentielles Denken über einen langen Horizont hinweg über erweiterte multimodale Kontexte hinweg. Aufgabenübergreifende Übertragung zeitlicher Darstellungen über den Trainingsbereich hinaus. Selektive externe Offenlegung im Einklang mit der IP- und Partnerschaftsstrategie.

MFI

Multimodal Fusion Interface

Aktiv

Heterogene Medieneingaben – Videosequenzen, Audiowellenformen, Bilder – werden vor der Modellinferenz in modalitätsspezifische Tokensequenzen normalisiert. Das MFI unterstützt sowohl die frühe Fusion, bei der modalübergreifende Tokensequenzen gemeinsam in einem gemeinsamen Darstellungsraum kodiert werden, als auch die späte Fusion, bei der pro Modalität kodierte Kodierungen in strukturierte Daten für Modelle projiziert werden, die Modalitäten unabhängig verarbeiten. Diese Abstraktion entkoppelt die Upstream-Medienkodierung von der Downstream-Modellarchitektur und ermöglicht so konsistente Eingabedarstellungen über Anbieter hinweg mit unterschiedlichen Tokenisierungsstrategien und Kontextfensterbeschränkungen.

STR

Structured Temporal Representation

Aktiv

Die Modellausgaben sind auf ein validiertes, parametrisiertes Schema beschränkt, das die semantische und zeitliche Struktur kodiert, und nicht auf Pixelraum- oder Latentraum-Generierungsziele. STR-Artefakte sind typisiert, versioniert und stellen Ereignisgrenzen, Kausalbeziehungen und semantische Zustandsübergänge explizit als diskrete, überprüfbare Objekte dar.

Diese Formulierung entkoppelt das Videoverständnis von der Videogenerierung während des Trainings. STR-Ziele bewahren die Informationsdichte, die für die Überwachung des zeitlichen Denkens erforderlich ist, und vermeiden gleichzeitig den Rechenaufwand einer autoregressiven oder diffusionsbasierten Generierung. Die Artefakte sind über Modellvarianten hinweg direkt vergleichbar und bieten ein nachvollziehbares und konsistentes Überwachungssignal für das Training zeitlicher Ereignismodelle. Diese Entkopplung ist sowohl für die Forschung produktiv – sie ermöglicht eine strenge vergleichende Bewertung über Architekturen hinweg – als auch für die Skalierung, wo sie den Rechenaufwand für das Training im Vergleich zu generationsbasierten Überwachungszielen um Größenordnungen reduziert.

Videoverständnis und Videogenerierung können während der Forschung und Entwicklung entkoppelt und selektiv wieder gekoppelt werden.

RRE

Rkive Rendering Engine

Aktiv

Strukturierte zeitliche Darstellungen werden über eine GPU-beschleunigte Rendering-Pipeline ausgeführt, die als Endstufe der Modellinferenzschleife dient. Die Rendering-Engine akzeptiert STR-Artefakte als Eingabe und erzeugt deterministische Medienausgaben mit einem Ausführungsverhalten, das vollständig durch das Artefakt spezifiziert wird und unabhängig von dem Modell ist, das es erzeugt hat.

Da KI-generierte und von Menschen erstellte STR-Artefakte dasselbe Schema verwenden und dieselbe Ausführungsumgebung durchlaufen, werden Ausgaben unter identischen Rechenbedingungen erzeugt. Dies macht die Rendering-Engine zu einem nativen Evaluierungssubstrat: Unterschiede in der Ausgabequalität sind auf die Upstream-Darstellung und nicht auf die Ausführungsvariabilität zurückzuführen. Diese Eigenschaft ist von entscheidender Bedeutung für das Benchmarking von TEMPO-Modellen sowohl mit externen Baselines als auch mit menschlichen Entscheidungen innerhalb derselben Pipeline.

UMI

Unified Model Interface

Aktiv

Die UMI definiert den Input-Output-Vertrag für alle Modellinteraktionen innerhalb des Rkive-Stacks. Auf der Eingabeseite erzwingt es MFI-normalisierte Darstellungen und gewährleistet so eine architekturunabhängige Medienkodierung über Anbieter hinweg. Auf der Ausgabeseite beschränkt es die Modellantworten auf validierte STR-Schemata und stellt so sicher, dass die Ergebnisse verschiedener Modelle – externe Anbieter und interne Forschungsmodelle einschließlich TEMPO – strukturell vergleichbar sind.

Diese bidirektionale Standardisierung ermöglicht eine native modellübergreifende Auswertung ohne zusätzliche Instrumentierung. Modellauswahl, Fallback-Routing und vergleichendes Benchmarking erfolgen auf Schnittstellenebene und sind sowohl für die darüber liegende Produktschicht als auch für die darunter liegende Ausführungsschicht transparent. Die UMI macht das System im technisch präzisen Sinne modellunabhängig: Keine darüber oder darunter liegende Komponente trägt anbieterspezifische Annahmen.

Zusammenarbeiten

Wir arbeiten mit Forschenden, Ingenieur:innen und Partnern zusammen, die continuity models für multimodale Reasoning-Modelle und -Systeme vorantreiben, darunter multimodale Repräsentation, Long-Horizon-Sequenzmodellierung, zeitliche Kohärenz und Inferenz im Produktionsmaßstab.

Wenn Ihre Arbeit zu dieser Kontinuitätsrichtung passt, melden Sie sich.

careers@rkiveai.com · partners@rkiveai.com

Forschung | Rkive AI