Nuestra investigación.

Rkive investiga los fundamentos de una IA multimodal confiable en producción: cómo modelos y sistemas entienden, deciden y actúan sobre video, audio e imágenes a lo largo del tiempo. Introdujimos Continuity Models como paradigma propio y usamos time models como término general más accesible.

"Continuity models" porque estos modelos mantienen continuidad: temporal, lógica y operativa. El término tiene un doble significado: continuidad temporal como mecanismo y continuidad lógica como resultado.

No es solo una etiqueta de investigación: el mismo stack de continuidad ya está desplegado en Studio y Base.

TEMPO

Temporal Event Modeling for Perception & Organization

En investigación

Los modelos multimodales entrenados en la predicción del siguiente token u objetivos contrastantes desarrollan sólidas representaciones de cuadro único y de contexto corto. No aprenden la estructura temporal de los eventos. No modelan cómo los estados semánticos transitan a lo largo del tiempo, qué dependencias causales conectan los eventos o cómo se propaga la intención a través de una secuencia. Estas propiedades no surgen de manera confiable únicamente de la escala: requieren señales de supervisión y objetivos de representación diseñados explícitamente en torno a una estructura temporal.

TEMPO investiga representaciones de eventos temporales aprendidas para secuencias multimodales. La hipótesis central es que el razonamiento multimodal confiable a largo plazo requiere un modelado explícito de límites de eventos, dependencias causales y transiciones de estados semánticos como objetos representacionales de primera clase, no como correlatos implícitos de características a nivel de marco. Desarrollamos y evaluamos estas representaciones utilizando artefactos STR como objetivos de supervisión, que proporcionan una señal de entrenamiento semánticamente densa y estructurada temporalmente a un costo significativamente menor que los objetivos de generación de espacio de píxeles o de espacio latente.

La capacitación sobre decisiones humanas reales en producción, en lugar de puntos de referencia sintéticos o videos extraídos de la web, es una elección metodológica deliberada. Las decisiones editoriales humanas codifican un razonamiento temporal implícito: qué importa, cuándo importa y por qué se relaciona con lo que lo precedió. Esta señal no está disponible en conjuntos de datos de video estándar y no es reproducible fuera de una superficie de implementación de producción.

El programa se ejecuta en tres etapas, cada una de las cuales produce artefactos de investigación integrados en la producción antes de que comience la siguiente.

Etapa 1: Arquitectura de representación de eventos temporales. Arnés de evaluación de contexto largo diseñado para lograr coherencia causal y consistencia semántica bajo cambio de distribución. Integración de producción para mediciones del mundo real frente a señales humanas en vivo.

Etapa 2: Generalización entre dominios de representaciones temporales. Robustez ante perturbaciones de entrada y escalamiento de longitud de contexto. Evaluación contra líneas base multimodales externas a través de la UMI.

Etapa 3: Razonamiento secuencial de largo horizonte en contextos multimodales extendidos. Transferencia entre tareas de representaciones temporales más allá del dominio de entrenamiento. Divulgación externa selectiva alineada con la propiedad intelectual y la estrategia de asociación.

MFI

Multimodal Fusion Interface

Activo

Las entradas de medios heterogéneas (secuencias de video, formas de onda de audio, imágenes) se normalizan en secuencias de tokens de modalidades específicas antes de la inferencia del modelo. La MFI apoya tanto la fusión temprana, donde las secuencias de tokens intermodales se codifican conjuntamente en un espacio de representación compartido, como la fusión tardía, donde las codificaciones por modalidad se proyectan en datos estructurados para modelos que procesan modalidades de forma independiente. Esta abstracción desacopla la codificación de medios ascendentes de la arquitectura del modelo descendente, lo que permite representaciones de entrada consistentes entre proveedores con diferentes estrategias de tokenización y restricciones de ventana de contexto.

STR

Structured Temporal Representation

Activo

Los resultados del modelo están restringidos a un esquema parametrizado y validado que codifica la estructura semántica y temporal en lugar de objetivos de generación de espacio de píxeles o de espacio latente. Los artefactos STR se tipifican, versionan y representan explícitamente límites de eventos, relaciones causales y transiciones de estados semánticos como objetos discretos e inspeccionables.

Esta formulación desacopla la comprensión del video de la generación de video durante el entrenamiento. Los objetivos STR preservan la densidad de información requerida para la supervisión del razonamiento temporal y al mismo tiempo evitan la sobrecarga computacional de la generación autorregresiva o basada en difusión. Los artefactos son directamente comparables entre las variantes del modelo, lo que proporciona una señal de supervisión manejable y consistente para entrenar modelos de eventos temporales. Este desacoplamiento es productivo tanto para la investigación (que permite una evaluación comparativa rigurosa entre arquitecturas) como para el escalado, donde reduce los requisitos informáticos de capacitación en órdenes de magnitud en relación con los objetivos de supervisión basados ​​en la generación.

La comprensión y la generación de video se pueden desacoplar durante la investigación y el desarrollo y volver a acoplarse selectivamente.

RRE

Rkive Rendering Engine

Activo

Las representaciones temporales estructuradas se ejecutan a través de un proceso de renderizado acelerado por GPU que sirve como etapa terminal del ciclo de inferencia del modelo. El motor de renderizado acepta artefactos STR como entrada y produce salidas de medios deterministas, con un comportamiento de ejecución completamente especificado por el artefacto e independiente del modelo que lo produjo.

Debido a que los artefactos STR generados por IA y creados por humanos comparten el mismo esquema y pasan por el mismo entorno de ejecución, los resultados se producen en condiciones computacionales idénticas. Esto convierte al motor de renderizado en un sustrato de evaluación nativo: las diferencias en la calidad de la salida son atribuibles a la representación ascendente, no a la variabilidad de la ejecución. Esta propiedad es útil para comparar los modelos TEMPO con líneas de base externas y decisiones humanas dentro del mismo proceso.

UMI

Unified Model Interface

Activo

La UMI define el contrato de entrada-salida para todas las interacciones del modelo dentro de la pila Rkive. En el lado de entrada, aplica representaciones normalizadas por MFI, lo que garantiza una codificación de medios independiente de la arquitectura entre proveedores. En el lado de los resultados, limita las respuestas del modelo a esquemas STR validados, asegurando que los resultados de diferentes modelos (proveedores externos y modelos de investigación internos, incluido TEMPO) sean estructuralmente comparables.

Esta estandarización bidireccional permite la evaluación nativa de modelos cruzados sin instrumentación adicional. La selección de modelos, el enrutamiento alternativo y la evaluación comparativa operan en el nivel de la interfaz, de manera transparente tanto para la capa de producto superior como para la capa de ejecución inferior. La UMI es lo que hace que el sistema sea independiente del modelo en un sentido técnicamente preciso: ningún componente por encima o por debajo conlleva suposiciones específicas del proveedor.

Colaborar

Trabajamos con investigadores, ingenieros y socios que impulsan continuity models para modelos y sistemas de razonamiento multimodal, incluyendo representación multimodal, modelado secuencial de largo horizonte, coherencia temporal e inferencia a escala de producción.

Si tu trabajo se alinea con esta dirección de continuidad, conversemos.

careers@rkiveai.com · partners@rkiveai.com

Investigación | Rkive AI