我们的研究。

Rkive 研究生产级可靠多模态 AI 的基础:模型与系统如何跨时间理解、决策并作用于视频、音频与图像。我们将 Continuity Models 定义为自有范式,并在需要时使用更通用、也更易理解的 time models 这一称呼。

我们称之为 "Continuity models",因为这些模型保持连续性:时间连续性、逻辑连续性和运行连续性。这个术语有双重含义:时间连续性是机制,逻辑连续性是结果。

这不只是研究标签:同一 continuity 栈已经在 Studio 与 Base 的真实工作流中运行。

TEMPO

Temporal Event Modeling for Perception & Organization

研发中

在下一个标记预测或对比目标上训练的多模态模型开发出强大的单帧和短上下文表示。他们不学习时间事件结构。它们没有对语义状态如何随时间转换、连接事件的因果依赖关系或意图如何通过序列传播进行建模。这些属性并不能仅从规模中可靠地显现出来——它们需要围绕时间结构明确设计的监督信号和表示目标。

TEMPO 研究学习多模态序列的时间事件表示。中心假设是,可靠的长视野多模态推理需要对事件边界、因果依赖性和语义状态转换进行显式建模,将其作为一流的表示对象,而不是作为帧级特征的隐式关联。我们使用 STR 工件作为监督目标来开发和评估这些表示,这些表示以比像素空间或潜在空间生成目标低得多的成本提供语义密集、时间结构化的训练信号。

对生产中真实的人类决策进行培训——而不是综合基准或网络抓取的视频——是一种深思熟虑的方法选择。人类的编辑决策编码隐含的时间推理:什么重要,什么时候重要,以及为什么它与之前的内容相关。该信号在标准视频数据集中不可用,并且在生产部署表面之外不可再现。

该计划分三个阶段运行,每个阶段都会在下一个阶段开始之前将研究成果集成到生产中。

第一阶段:时间事件表示架构。长上下文评估工具专为分布转移下的因果一致性和语义一致性而设计。针对实时人体信号进行实际测量的生产集成。

第 2 阶段:时间表示的跨域泛化。输入扰动和上下文长度缩放下的鲁棒性。通过 UMI 根据外部多模式基线进行评估。

第三阶段:跨扩展多模态上下文的长视野顺序推理。训练域之外的时间表示的跨任务传输。选择性外部披露与知识产权和合作伙伴战略相一致。

MFI

Multimodal Fusion Interface

已上线

在模型推理之前,异构媒体输入(视频序列、音频波形、图像)被标准化为特定于模态的标记序列。 MFI 支持早期融合(跨模态标记序列被联合编码到共享表示空间)和后期融合(其中每个模态编码被投影到独立处理模态的模型的结构化数据中)。这种抽象将上游媒体编码与下游模型架构解耦,从而在具有不同标记化策略和上下文窗口约束的提供者之间实现一致的输入表示。

STR

Structured Temporal Representation

已上线

模型输出仅限于经过验证的参数化模式编码语义和时间结构,而不是像素空间或潜在空间生成目标。 STR 工件是类型化、版本化的,并明确地将事件边界、因果关系和语义状态转换表示为离散的、可检查的对象。

该公式将训练过程中的视频理解与视频生成分离。 STR 目标保留时间推理监督所需的信息密度,同时避免自回归或基于扩散的生成的计算开销。这些工件可以在模型变体之间直接进行比较,为训练时间事件模型提供易于处理且一致的监督信号。这种解耦对于研究(支持跨架构进行严格的比较评估)和扩展来说都是富有成效的,相对于基于生成的监督目标,它可以将训练计算需求减少几个数量级。

视频理解和视频生成可以在研发过程中解耦,并有选择地重新耦合。

RRE

Rkive Rendering Engine

已上线

结构化时间表示通过 GPU 加速的渲染管道执行,该管道充当模型推理循环的终端阶段。渲染引擎接受 STR 工件作为输入并生成确定性媒体输出,其执行行为完全由工件指定并且独立于生成它的模型。

由于人工智能生成的和人类创作的 STR 工件共享相同的模式并通过相同的执行环境,因此输出是在相同的计算条件下产生的。这使得渲染引擎成为本机评估基础:输出质量的差异可归因于上游表示,而不是执行可变性。此属性可承载针对同一管道内的外部基线和人工决策对 TEMPO 模型进行基准测试的负载。

UMI

Unified Model Interface

已上线

UMI 定义了 Rkive 堆栈中所有模型交互的输入输出契约。在输入端,它强制执行 MFI 标准化表示,确保跨提供商的架构不可知的媒体编码。在输出方面,它将模型响应限制为经过验证的 STR 模式,确保不同模型(外部提供商和包括 TEMPO 在内的内部研究模型)的输出在结构上具有可比性。

这种双向标准化可以实现本机跨模型评估,无需额外的仪器。模型选择、后备路由和比较基准测试在接口级别运行,对上面的产品层和下面的执行层都是透明的。 UMI 使得系统在技术上精确意义上与模型无关:其上方或下方的任何组件都不带有特定于提供商的假设。

合作

我们与研究者、工程师和合作伙伴共同推进用于多模态推理模型与系统的 continuity models,包括多模态表示、长时程序列建模、时间一致性与生产级推理。

如果你的工作方向与这一路径一致,欢迎联系。

careers@rkiveai.com · partners@rkiveai.com

研究 | Rkive AI