TEMPO
Temporal Event Modeling for Perception & Organization
次のトークンの予測または対照的な目的でトレーニングされたマルチモーダル モデルは、強力な単一フレームおよび短いコンテキスト表現を開発します。彼らは時間的な出来事の構造を学習しません。これらは、意味論的な状態が時間の経過とともにどのように遷移するか、どのような因果関係がイベントを結び付けるか、または意図がシーケンスを通じてどのように伝播するかをモデル化しません。これらの特性はスケールだけから確実に現れるわけではありません。時間構造を中心に明示的に設計された監視信号と表現ターゲットが必要です。
TEMPO は、マルチモーダル シーケンスの学習された時間イベント表現を研究しています。中心となる仮説は、信頼性の高い長期的なマルチモーダル推論には、フレーム レベルの特徴の暗黙的な相関としてではなく、イベントの境界、因果関係、および意味論的な状態遷移を第一級の表現オブジェクトとして明示的にモデリングする必要があるということです。私たちは、STR アーティファクトを監視ターゲットとして使用して、これらの表現を開発および評価します。これにより、ピクセル空間または潜在空間の生成目標よりも大幅に低いコストで、意味的に高密度で時間的に構造化されたトレーニング信号が提供されます。
合成ベンチマークや Web スクレイピングされたビデオではなく、本番環境における実際の人間の意思決定に基づくトレーニングは、意図的な方法論の選択です。人間の編集上の決定には、何が重要か、いつ重要か、そしてなぜそれが以前のものと関連するのかという、暗黙の時間的推論がコード化されています。この信号は標準のビデオ データセットでは利用できず、運用環境のデプロイ サーフェスの外では再現できません。
このプログラムは 3 つの段階で実行され、各段階で本番環境に統合された研究成果物が生成されてから、次の段階が開始されます。
ステージ 1: 時間的イベント表現アーキテクチャ。分布シフト下での因果的一貫性と意味的一貫性を目的に設計されたロングコンテキスト評価ハーネス。生の人間の信号に対する実世界の測定のための生産統合。
ステージ 2: 時間表現のクロスドメイン一般化。入力摂動およびコンテキスト長スケーリングの下でのロバスト性。 UMI を介した外部マルチモーダル ベースラインに対する評価。
ステージ 3: 拡張されたマルチモーダル コンテキストにわたる長期的な逐次推論。トレーニング ドメインを超えた時間表現のタスク間転送。知的財産およびパートナーシップ戦略に合わせた選択的な外部開示。