Notre recherche.

Rkive étudie les fondements d’une IA multimodale fiable en production: comment modèles et systèmes comprennent, décident et agissent sur la vidéo, l’audio et les images à travers le temps. Nous avons introduit Continuity Models comme paradigme propre et utilisons time models comme terme général plus accessible.

"Continuity models" parce que ces modèles maintiennent une continuité: temporelle, logique et opérationnelle. Le terme a un double sens: la continuité temporelle comme mécanisme, la continuité logique comme résultat.

Ce n’est pas seulement un label de recherche: la même pile de continuité est déjà déployée dans Studio et Base.

TEMPO

Temporal Event Modeling for Perception & Organization

En recherche

Les modèles multimodaux formés sur la prédiction du prochain jeton ou sur des objectifs contrastifs développent de solides représentations à image unique et à contexte court. Ils n'apprennent pas la structure des événements temporels. Ils ne modélisent pas la façon dont les états sémantiques évoluent dans le temps, quelles dépendances causales relient les événements ou comment l'intention se propage à travers une séquence. Ces propriétés n’émergent pas de manière fiable de la seule échelle : elles nécessitent des signaux de supervision et des cibles de représentation explicitement conçues autour de la structure temporelle.

TEMPO recherche des représentations d'événements temporels apprises pour des séquences multimodales. L’hypothèse centrale est qu’un raisonnement multimodal fiable à long horizon nécessite une modélisation explicite des limites des événements, des dépendances causales et des transitions d’état sémantique en tant qu’objets représentationnels de première classe – et non en tant que corrélats implicites de caractéristiques au niveau de la trame. Nous développons et évaluons ces représentations en utilisant des artefacts STR comme cibles de supervision, qui fournissent un signal d'entraînement sémantiquement dense et structuré temporellement à un coût nettement inférieur à celui des objectifs de génération d'espace de pixels ou d'espace latent.

La formation sur de véritables décisions humaines en production – plutôt que sur des références synthétiques ou des vidéos récupérées sur le Web – est un choix méthodologique délibéré. Les décisions éditoriales humaines encodent un raisonnement temporel implicite : ce qui compte, quand cela compte et pourquoi cela est lié à ce qui l’a précédé. Ce signal n'est pas disponible dans les ensembles de données vidéo standards et n'est pas reproductible en dehors d'une surface de déploiement de production.

Le programme se déroule en trois étapes, chacune produisant des artefacts de recherche intégrés à la production avant le début de la suivante.

Étape 1 : Architecture de représentation d’événements temporels. Exploitation d'évaluation à contexte long conçue pour la cohérence causale et la cohérence sémantique lors d'un changement de distribution. Intégration de la production pour des mesures réelles par rapport à un signal humain en direct.

Étape 2 : Généralisation inter-domaines des représentations temporelles. Robustesse sous perturbation d'entrée et mise à l'échelle de la longueur du contexte. Évaluation par rapport à des références multimodales externes via l'UMI.

Étape 3 : Raisonnement séquentiel à long horizon dans des contextes multimodaux étendus. Transfert inter-tâches de représentations temporelles au-delà du domaine de formation. Divulgation externe sélective alignée sur la stratégie de propriété intellectuelle et de partenariat.

MFI

Multimodal Fusion Interface

Actif

Les entrées multimédias hétérogènes (séquences vidéo, formes d'onde audio, images) sont normalisées en séquences de jetons spécifiques à une modalité avant l'inférence du modèle. Le MFI prend en charge à la fois la fusion précoce, où les séquences de jetons intermodaux sont codées conjointement dans un espace de représentation partagé, et la fusion tardive, où les codages par modalité sont projetés dans des données structurées pour des modèles qui traitent les modalités de manière indépendante. Cette abstraction dissocie le codage des médias en amont de l'architecture de modèle en aval, permettant des représentations d'entrée cohérentes entre les fournisseurs avec différentes stratégies de tokenisation et contraintes de fenêtre contextuelle.

STR

Structured Temporal Representation

Actif

Les sorties du modèle sont contraintes à un schéma validé et paramétré codant une structure sémantique et temporelle plutôt qu'à des cibles de génération d'espace de pixels ou d'espace latent. Les artefacts STR sont typés, versionnés et représentent explicitement les limites des événements, les relations causales et les transitions d'état sémantique en tant qu'objets discrets et inspectables.

Cette formulation dissocie la compréhension vidéo de la génération vidéo pendant la formation. Les cibles STR préservent la densité informationnelle requise pour la supervision du raisonnement temporel tout en évitant la surcharge de calcul liée à la génération autorégressive ou basée sur la diffusion. Les artefacts sont directement comparables entre les variantes de modèle, fournissant un signal de supervision traitable et cohérent pour la formation de modèles d'événements temporels. Ce découplage est productif à la fois pour la recherche (permettant une évaluation comparative rigoureuse entre les architectures) et pour la mise à l'échelle, où il réduit les besoins de calcul de formation de plusieurs ordres de grandeur par rapport aux objectifs de supervision basés sur la génération.

La compréhension vidéo et la génération vidéo peuvent être découplées pendant la recherche et le développement et recouplées de manière sélective.

RRE

Rkive Rendering Engine

Actif

Les représentations temporelles structurées sont exécutées via un pipeline de rendu accéléré par GPU qui sert d'étape terminale de la boucle d'inférence du modèle. Le moteur de rendu accepte les artefacts STR en entrée et produit des sorties multimédias déterministes, avec un comportement d'exécution entièrement spécifié par l'artefact et indépendant du modèle qui l'a produit.

Étant donné que les artefacts STR générés par l’IA et créés par l’homme partagent le même schéma et traversent le même environnement d’exécution, les sorties sont produites dans des conditions de calcul identiques. Cela fait du moteur de rendu un substrat d'évaluation natif : les différences de qualité de sortie sont attribuables à la représentation en amont, et non à la variabilité de l'exécution. Cette propriété est utile pour comparer les modèles TEMPO par rapport à des références externes et à des décisions humaines au sein du même pipeline.

UMI

Unified Model Interface

Actif

L'UMI définit le contrat d'entrée-sortie pour toutes les interactions de modèle au sein de la pile Rkive. Du côté des entrées, il applique des représentations normalisées par MFI, garantissant un codage multimédia indépendant de l'architecture entre les fournisseurs. Du côté des résultats, il contraint les réponses du modèle à des schémas STR validés, garantissant ainsi que les résultats des différents modèles (fournisseurs externes et modèles de recherche internes, y compris TEMPO) sont structurellement comparables.

Cette standardisation bidirectionnelle permet une évaluation native entre modèles sans instrumentation supplémentaire. La sélection du modèle, le routage de secours et l'analyse comparative comparative fonctionnent au niveau de l'interface, de manière transparente à la fois pour la couche de produit supérieure et pour la couche d'exécution inférieure. L'UMI est ce qui rend le système indépendant du modèle dans un sens techniquement précis : aucun composant au-dessus ou en dessous ne comporte d'hypothèses spécifiques au fournisseur.

Collaborer

Nous travaillons avec des chercheurs, des ingénieurs et des partenaires qui font progresser les continuity models pour les modèles et systèmes de raisonnement multimodal, notamment la représentation multimodale, la modélisation séquentielle long horizon, la cohérence temporelle et l’inférence à l’échelle de la production.

Si votre travail s’aligne avec cette direction axée sur la continuité, contactez-nous.

careers@rkiveai.com · partners@rkiveai.com

Recherche | Rkive AI