Nossa Pesquisa.

A Rkive pesquisa os fundamentos de uma IA multimodal confiável em produção: como modelos e sistemas entendem, decidem e agem sobre vídeo, áudio e imagens ao longo do tempo. Introduzimos Continuity Models como paradigma próprio e usamos time models como termo mais geral e acessível.

"Continuity models" porque esses modelos mantêm continuidade: temporal, lógica e operacional. O termo tem um duplo significado: continuidade temporal como mecanismo, continuidade lógica como resultado.

Não é apenas um rótulo de pesquisa: a mesma stack de continuidade já está implantada em Studio e Base.

TEMPO

Temporal Event Modeling for Perception & Organization

Em pesquisa

Modelos multimodais treinados na previsão do próximo token ou objetivos contrastivos desenvolvem representações fortes de quadro único e contexto curto. Eles não aprendem a estrutura temporal do evento. Eles não modelam como os estados semânticos transitam ao longo do tempo, quais dependências causais conectam os eventos ou como a intenção se propaga através de uma sequência. Estas propriedades não emergem de forma fiável apenas da escala – requerem sinais de supervisão e alvos de representação explicitamente concebidos em torno da estrutura temporal.

TEMPO pesquisa representações de eventos temporais aprendidas para sequências multimodais. A hipótese central é que o raciocínio multimodal confiável de longo horizonte requer modelagem explícita de limites de eventos, dependências causais e transições de estado semântico como objetos representacionais de primeira classe - não como correlatos implícitos de características de nível de quadro. Desenvolvemos e avaliamos essas representações usando artefatos STR como alvos de supervisão, que fornecem sinal de treinamento semanticamente denso e temporalmente estruturado a um custo significativamente menor do que os objetivos de geração de espaço de pixel ou espaço latente.

O treinamento em decisões humanas reais na produção – em vez de benchmarks sintéticos ou vídeos copiados da web – é uma escolha metodológica deliberada. As decisões editoriais humanas codificam o raciocínio temporal implícito: o que importa, quando importa e por que se relaciona com o que o precedeu. Este sinal não está disponível em conjuntos de dados de vídeo padrão e não é reproduzível fora de uma superfície de implantação de produção.

O programa é executado em três etapas, cada uma produzindo artefatos de pesquisa integrados à produção antes do início da próxima.

Etapa 1: Arquitetura de representação de eventos temporais. Arnês de avaliação de contexto longo projetado para coerência causal e consistência semântica sob mudança de distribuição. Integração de produção para medição no mundo real contra sinal humano ao vivo.

Etapa 2: Generalização entre domínios de representações temporais. Robustez sob perturbação de entrada e escala de comprimento de contexto. Avaliação em relação às linhas de base multimodais externas através do IMU.

Estágio 3: Raciocínio sequencial de longo horizonte em contextos multimodais estendidos. Transferência entre tarefas de representações temporais além do domínio de treinamento. Divulgação externa seletiva alinhada com a estratégia de PI e parceria.

MFI

Multimodal Fusion Interface

Ativo

Entradas de mídia heterogêneas – sequências de vídeo, formas de onda de áudio, imagens – são normalizadas em sequências de token específicas da modalidade antes da inferência do modelo. A IMF apoia tanto a fusão precoce, onde as sequências de tokens intermodais são codificadas conjuntamente em um espaço de representação compartilhado, quanto a fusão tardia, onde as codificações por modalidade são projetadas em dados estruturados para modelos que processam modalidades de forma independente. Essa abstração desacopla a codificação de mídia upstream da arquitetura do modelo downstream, permitindo representações de entrada consistentes entre provedores com diferentes estratégias de tokenização e restrições de janela de contexto.

STR

Structured Temporal Representation

Ativo

As saídas do modelo são restritas a um esquema validado e parametrizado que codifica a estrutura semântica e temporal, em vez de alvos de geração de espaço de pixel ou espaço latente. Os artefatos STR são digitados, versionados e representam explicitamente limites de eventos, relações causais e transições de estado semântico como objetos discretos e inspecionáveis.

Esta formulação separa a compreensão do vídeo da geração de vídeo durante o treinamento. Os alvos STR preservam a densidade informacional necessária para a supervisão do raciocínio temporal, evitando a sobrecarga computacional da geração autoregressiva ou baseada em difusão. Os artefatos são diretamente comparáveis ​​entre variantes de modelo, fornecendo um sinal de supervisão tratável e consistente para treinar modelos de eventos temporais. Esta dissociação é produtiva tanto para a investigação – permitindo uma avaliação comparativa rigorosa entre arquitecturas – como para o dimensionamento, onde reduz os requisitos de computação de formação em ordens de grandeza relativamente aos objectivos de supervisão baseados na geração.

A compreensão e a geração de vídeo podem ser dissociadas durante a pesquisa e desenvolvimento e reacopladas seletivamente.

RRE

Rkive Rendering Engine

Ativo

As representações temporais estruturadas são executadas por meio de um pipeline de renderização acelerado por GPU que serve como estágio terminal do loop de inferência do modelo. O mecanismo de renderização aceita artefatos STR como entrada e produz saídas de mídia determinísticas, com comportamento de execução totalmente especificado pelo artefato e independente do modelo que o produziu.

Como os artefatos STR gerados por IA e de autoria humana compartilham o mesmo esquema e passam pelo mesmo ambiente de execução, as saídas são produzidas sob condições computacionais idênticas. Isso torna o mecanismo de renderização um substrato de avaliação nativo: as diferenças na qualidade da saída são atribuíveis à representação upstream, não à variabilidade de execução. Esta propriedade suporta a avaliação comparativa de modelos TEMPO em relação a linhas de base externas e decisões humanas dentro do mesmo pipeline.

UMI

Unified Model Interface

Ativo

O UMI define o contrato de entrada-saída para todas as interações do modelo dentro da pilha Rkive. No lado da entrada, ele impõe representações normalizadas por MFI, garantindo codificação de mídia independente de arquitetura entre provedores. Do lado dos resultados, restringe as respostas dos modelos a esquemas STR validados, garantindo que os resultados de diferentes modelos — fornecedores externos e modelos de investigação internos, incluindo TEMPO — são estruturalmente comparáveis.

Essa padronização bidirecional permite a avaliação nativa de modelos cruzados sem instrumentação adicional. A seleção de modelos, o roteamento alternativo e o benchmarking comparativo operam no nível da interface, transparentes tanto para a camada de produto acima quanto para a camada de execução abaixo. A UMI é o que torna o modelo do sistema agnóstico num sentido tecnicamente preciso: nenhum componente acima ou abaixo dele carrega suposições específicas do fornecedor.

Colaborar

Trabalhamos com pesquisadores, engenheiros e parceiros que avançam continuity models para modelos e sistemas de raciocínio multimodal, incluindo representação multimodal, modelagem sequencial de longo horizonte, coerência temporal e inferência em escala de produção.

Se o seu trabalho estiver alinhado com essa direção centrada em continuidade, fale com a gente.

careers@rkiveai.com · partners@rkiveai.com

Pesquisa | Rkive AI