TEMPO
Temporal Event Modeling for Perception & Organization
다음 토큰 예측 또는 대조 목표에 대해 훈련된 다중 모드 모델은 강력한 단일 프레임 및 짧은 컨텍스트 표현을 개발합니다. 그들은 시간적 사건 구조를 배우지 않습니다. 시간이 지남에 따라 의미론적 상태가 어떻게 전환되는지, 이벤트를 연결하는 인과 관계 종속성 또는 의도가 시퀀스를 통해 전파되는 방식을 모델링하지 않습니다. 이러한 속성은 규모만으로는 안정적으로 나타나지 않습니다. 시간적 구조를 중심으로 명시적으로 설계된 감독 신호와 표현 대상이 필요합니다.
TEMPO는 다중 모드 시퀀스에 대해 학습된 시간적 이벤트 표현을 연구합니다. 중심 가설은 신뢰할 수 있는 장거리 다중 모드 추론에는 프레임 수준 기능의 암시적 상관 관계가 아닌 일급 표현 개체로서 이벤트 경계, 인과 관계 종속성 및 의미론적 상태 전환의 명시적인 모델링이 필요하다는 것입니다. 우리는 STR 아티팩트를 감독 대상으로 사용하여 이러한 표현을 개발하고 평가합니다. 이는 픽셀 공간 또는 잠재 공간 생성 목표보다 훨씬 낮은 비용으로 의미상 조밀하고 시간적으로 구조화된 훈련 신호를 제공합니다.
합성 벤치마크나 웹에서 스크랩한 비디오가 아닌 실제 인간의 결정에 대한 교육은 의도적인 방법론적 선택입니다. 인간의 편집 결정에는 무엇이 중요한지, 언제 중요한지, 왜 이전 내용과 관련이 있는지에 대한 암묵적인 시간적 추론이 포함되어 있습니다. 이 신호는 표준 비디오 데이터 세트에서 사용할 수 없으며 프로덕션 배포 표면 외부에서 재현할 수 없습니다.
이 프로그램은 세 단계로 진행되며 각 단계는 다음 단계가 시작되기 전에 생산에 통합된 연구 결과물을 생산합니다.
1단계: 시간적 이벤트 표현 아키텍처. 분포 변화 시 인과적 일관성 및 의미론적 일관성을 위해 설계된 장기 컨텍스트 평가 도구입니다. 실제 인간 신호에 대한 실제 측정을 위한 생산 통합입니다.
2단계: 시간 표현의 도메인 간 일반화. 입력 교란 및 컨텍스트 길이 스케일링에 대한 견고성. UMI를 통한 외부 다중 모드 기준선에 대한 평가.
3단계: 확장된 다중 모드 컨텍스트 전반에 걸친 장수평 순차 추론. 훈련 영역을 넘어서는 시간적 표현의 교차 작업 전송. IP 및 파트너십 전략에 맞춰 선택적 외부 공개가 가능합니다.