私たちの研究。

Rkiveは、信頼できるマルチモーダルAIを本番で成立させる基盤を研究しています。モデルとシステムが、動画・音声・画像を時間軸でどう理解し、判断し、実行するかです。私たちはContinuity Modelsを独自パラダイムとして提示し、必要に応じてtime modelsという、より一般的で伝わりやすい呼び方も使います。

「Continuity models」と呼ぶのは、これらのモデルが連続性を維持するからです。時間的連続性、論理的連続性、運用上の連続性です。この語には二重の意味があります。時間的連続性がメカニズムであり、論理的連続性が結果です。

これは研究ラベルだけではありません。同じcontinuityスタックがすでにStudioとBaseの実運用で動いています。

TEMPO

Temporal Event Modeling for Perception & Organization

研究中

次のトークンの予測または対照的な目的でトレーニングされたマルチモーダル モデルは、強力な単一フレームおよび短いコンテキスト表現を開発します。彼らは時間的な出来事の構造を学習しません。これらは、意味論的な状態が時間の経過とともにどのように遷移するか、どのような因果関係がイベントを結び付けるか、または意図がシーケンスを通じてどのように伝播するかをモデル化しません。これらの特性はスケールだけから確実に現れるわけではありません。時間構造を中心に明示的に設計された監視信号と表現ターゲットが必要です。

TEMPO は、マルチモーダル シーケンスの学習された時間イベント表現を研究しています。中心となる仮説は、信頼性の高い長期的なマルチモーダル推論には、フレーム レベルの特徴の暗黙的な相関としてではなく、イベントの境界、因果関係、および意味論的な状態遷移を第一級の表現オブジェクトとして明示的にモデリングする必要があるということです。私たちは、STR アーティファクトを監視ターゲットとして使用して、これらの表現を開発および評価します。これにより、ピクセル空間または潜在空間の生成目標よりも大幅に低いコストで、意味的に高密度で時間的に構造化されたトレーニング信号が提供されます。

合成ベンチマークや Web スクレイピングされたビデオではなく、本番環境における実際の人間の意思決定に基づくトレーニングは、意図的な方法論の選択です。人間の編集上の決定には、何が重要か、いつ重要か、そしてなぜそれが以前のものと関連するのかという、暗黙の時間的推論がコード化されています。この信号は標準のビデオ データセットでは利用できず、運用環境のデプロイ サーフェスの外では再現できません。

このプログラムは 3 つの段階で実行され、各段階で本番環境に統合された研究成果物が生成されてから、次の段階が開始されます。

ステージ 1: 時間的イベント表現アーキテクチャ。分布シフト下での因果的一貫性と意味的一貫性を目的に設計されたロングコンテキスト評価ハーネス。生の人間の信号に対する実世界の測定のための生産統合。

ステージ 2: 時間表現のクロスドメイン一般化。入力摂動およびコンテキスト長スケーリングの下で​​のロバスト性。 UMI を介した外部マルチモーダル ベースラインに対する評価。

ステージ 3: 拡張されたマルチモーダル コンテキストにわたる長期的な逐次推論。トレーニング ドメインを超えた時間表現のタスク間転送。知的財産およびパートナーシップ戦略に合わせた選択的な外部開示。

MFI

Multimodal Fusion Interface

稼働中

異種メディア入力 (ビデオ シーケンス、音声波形、画像) は、モデル推論の前にモダリティ固有のトークン シーケンスに正規化されます。 MFI は、クロスモーダル トークン シーケンスが共有表現空間に共同エンコードされる早期融合と、モダリティごとのエンコードがモダリティを個別に処理するモデルの構造化データに射影される後期融合の両方をサポートします。この抽象化により、上流のメディア エンコーディングが下流のモデル アーキテクチャから切り離され、異なるトークン化戦略とコンテキスト ウィンドウの制約を持つプロバイダ間で一貫した入力表現が可能になります。

STR

Structured Temporal Representation

稼働中

モデルの出力は、ピクセル空間や潜在空間の生成ターゲットではなく、意味論的および時間的構造をエンコードする検証済みのパラメーター化されたスキーマに制約されます。 STR アーティファクトは型指定され、バージョン管理され、イベントの境界、因果関係、セマンティックな状態遷移を個別の検査可能なオブジェクトとして明示的に表します。

この定式化により、トレーニング中のビデオの理解とビデオの生成が切り離されます。 STR ターゲットは、自己回帰または拡散ベースの生成による計算オーバーヘッドを回避しながら、時間的推論の監視に必要な情報密度を維持します。アーティファクトはモデルのバリアント間で直接比較でき、時間イベント モデルをトレーニングするための扱いやすく一貫した監視信号を提供します。この分離は、研究(アーキテクチャ全体での厳密な比較評価を可能にする)とスケーリングの両方にとって生産的であり、世代ベースの監視ターゲットと比較してトレーニングのコンピューティング要件を桁違いに削減します。

ビデオの理解とビデオの生成は、研究開発中に分離し、選択的に再結合することができます。

RRE

Rkive Rendering Engine

稼働中

構造化時間表現は、モデル推論ループの最終段階として機能する GPU 高速化レンダリング パイプラインを通じて実行されます。レンダリング エンジンは、STR アーティファクトを入力として受け入れ、アーティファクトによって完全に指定され、それを生成したモデルから独立した実行動作で決定論的なメディア出力を生成します。

AI によって生成された STR アーティファクトと人間が作成した STR アーティファクトは同じスキーマを共有し、同じ実行環境を通過するため、出力は同一の計算条件下で生成されます。これにより、レンダリング エンジンがネイティブの評価基盤になります。出力品質の違いは、実行のばらつきではなく、上流の表現に起因します。このプロパティは、外部のベースラインと同じパイプライン内の人間の決定の両方に対して TEMPO モデルのベンチマークを行うのに耐えます。

UMI

Unified Model Interface

稼働中

UMI は、Rkive スタック内のすべてのモデル相互作用の入出力コントラクトを定義します。入力側では、MFI 正規化表現を強制し、プロバイダー全体でアーキテクチャに依存しないメディア エンコーディングを保証します。出力側では、モデルの応答を検証済みの STR スキーマに制限し、さまざまなモデル (外部プロバイダーと TEMPO を含む内部研究モデル) からの出力が構造的に同等であることを保証します。

この双方向の標準化により、追加の計測機器を使用せずにネイティブのクロスモデル評価が可能になります。モデルの選択、フォールバック ルーティング、および比較ベンチマークはインターフェイス レベルで動作し、上の製品層とその下の実行層の両方に対して透過的です。 UMI は、技術的に正確な意味でシステム モデルに依存しないようにするものであり、UMI の上下にあるコンポーネントはプロバイダー固有の前提を持ちません。

コラボレーションする

私たちは、マルチモーダル推論のモデルとシステムに向けたcontinuity modelsを前進させる研究者、エンジニア、パートナーと協働しています。対象は、マルチモーダル表現、長期シーケンスモデリング、時間的コヒーレンス、本番規模推論です。

このcontinuity-firstの方向性に合う方はぜひご連絡ください。

careers@rkiveai.com · partners@rkiveai.com

研究 | Rkive AI