우리의 연구.

Rkive는 프로덕션에서 신뢰할 수 있는 멀티모달 AI의 기반을 연구합니다. 즉, 모델과 시스템이 영상, 오디오, 이미지를 시간 축에서 어떻게 이해하고 결정하고 실행하는지입니다. 우리는 Continuity Models를 고유 패러다임으로 제시했고, 필요할 때는 time models라는 더 일반적이고 이해하기 쉬운 표현을 사용합니다.

"Continuity models"라는 표현을 쓰는 이유는 이 모델들이 연속성을 유지하기 때문입니다. 시간적, 논리적, 운영적 연속성입니다. 이 용어에는 이중 의미가 있습니다. 시간적 연속성은 메커니즘이고, 논리적 연속성은 결과입니다.

이것은 연구용 라벨에 그치지 않습니다. 같은 continuity 스택이 이미 Studio와 Base의 실제 워크플로에서 동작합니다.

TEMPO

Temporal Event Modeling for Perception & Organization

연구 중

다음 토큰 예측 또는 대조 목표에 대해 훈련된 다중 모드 모델은 강력한 단일 프레임 및 짧은 컨텍스트 표현을 개발합니다. 그들은 시간적 사건 구조를 배우지 않습니다. 시간이 지남에 따라 의미론적 상태가 어떻게 전환되는지, 이벤트를 연결하는 인과 관계 종속성 또는 의도가 시퀀스를 통해 전파되는 방식을 모델링하지 않습니다. 이러한 속성은 규모만으로는 안정적으로 나타나지 않습니다. 시간적 구조를 중심으로 명시적으로 설계된 감독 신호와 표현 대상이 필요합니다.

TEMPO는 다중 모드 시퀀스에 대해 학습된 시간적 이벤트 표현을 연구합니다. 중심 가설은 신뢰할 수 있는 장거리 다중 모드 추론에는 프레임 수준 기능의 암시적 상관 관계가 아닌 일급 표현 개체로서 이벤트 경계, 인과 관계 종속성 및 의미론적 상태 전환의 명시적인 모델링이 필요하다는 것입니다. 우리는 STR 아티팩트를 감독 대상으로 사용하여 이러한 표현을 개발하고 평가합니다. 이는 픽셀 공간 또는 잠재 공간 생성 목표보다 훨씬 낮은 비용으로 의미상 조밀하고 시간적으로 구조화된 훈련 신호를 제공합니다.

합성 벤치마크나 웹에서 스크랩한 비디오가 아닌 실제 인간의 결정에 대한 교육은 의도적인 방법론적 선택입니다. 인간의 편집 결정에는 무엇이 중요한지, 언제 중요한지, 왜 이전 내용과 관련이 있는지에 대한 암묵적인 시간적 추론이 포함되어 있습니다. 이 신호는 표준 비디오 데이터 세트에서 사용할 수 없으며 프로덕션 배포 표면 외부에서 재현할 수 없습니다.

이 프로그램은 세 단계로 진행되며 각 단계는 다음 단계가 시작되기 전에 생산에 통합된 연구 결과물을 생산합니다.

1단계: 시간적 이벤트 표현 아키텍처. 분포 변화 시 인과적 일관성 및 의미론적 일관성을 위해 설계된 장기 컨텍스트 평가 도구입니다. 실제 인간 신호에 대한 실제 측정을 위한 생산 통합입니다.

2단계: 시간 표현의 도메인 간 일반화. 입력 교란 및 컨텍스트 길이 스케일링에 대한 견고성. UMI를 통한 외부 다중 모드 기준선에 대한 평가.

3단계: 확장된 다중 모드 컨텍스트 전반에 걸친 장수평 순차 추론. 훈련 영역을 넘어서는 시간적 표현의 교차 작업 전송. IP 및 파트너십 전략에 맞춰 선택적 외부 공개가 가능합니다.

MFI

Multimodal Fusion Interface

운영 중

이기종 미디어 입력(비디오 시퀀스, 오디오 파형, 이미지)은 모델 추론에 앞서 양식별 토큰 시퀀스로 정규화됩니다. MFI는 교차 모달 토큰 시퀀스가 ​​공유 표현 공간으로 공동으로 인코딩되는 초기 융합과 양식별 인코딩이 양식을 독립적으로 처리하는 모델의 구조화된 데이터에 투영되는 후기 융합을 모두 지원합니다. 이 추상화는 다운스트림 모델 아키텍처에서 업스트림 미디어 인코딩을 분리하여 다양한 토큰화 전략과 컨텍스트 창 제약 조건을 갖춘 공급자 간에 일관된 입력 표현을 가능하게 합니다.

STR

Structured Temporal Representation

운영 중

모델 출력은 픽셀 공간이나 잠재 공간 생성 대상이 아닌 의미 및 시간 구조를 인코딩하는 검증되고 매개변수화된 스키마로 제한됩니다. STR 아티팩트는 유형이 지정되고 버전이 지정되며 이벤트 경계, 인과 관계 및 의미론적 상태 전환을 개별적이고 검사 가능한 개체로 명시적으로 나타냅니다.

이 공식은 훈련 중에 비디오 생성과 비디오 이해를 분리합니다. STR 목표는 자동 회귀 또는 확산 기반 생성의 계산 오버헤드를 피하면서 시간적 추론 감독에 필요한 정보 밀도를 유지합니다. 아티팩트는 모델 변형 전반에 걸쳐 직접 비교 가능하며 시간적 이벤트 모델 교육을 위한 다루기 쉽고 일관된 감독 신호를 제공합니다. 이러한 분리는 아키텍처 전반에 걸쳐 엄격한 비교 평가를 가능하게 하는 연구와 세대 기반 감독 대상에 비해 훈련 컴퓨팅 요구 사항을 대폭 줄이는 확장에 모두 생산적입니다.

비디오 이해와 비디오 생성은 연구 개발 중에 분리되었다가 선택적으로 다시 결합될 수 있습니다.

RRE

Rkive Rendering Engine

운영 중

구조화된 시간적 표현은 모델 추론 루프의 최종 단계 역할을 하는 GPU 가속 렌더링 파이프라인을 통해 실행됩니다. 렌더링 엔진은 STR 아티팩트를 입력으로 받아들이고 아티팩트에 의해 완전히 지정되고 이를 생성한 모델과 독립적인 실행 동작을 사용하여 결정적 미디어 출력을 생성합니다.

AI 생성 및 인간 작성 STR 아티팩트는 동일한 스키마를 공유하고 동일한 실행 환경을 통과하기 때문에 동일한 계산 조건에서 출력이 생성됩니다. 이는 렌더링 엔진을 기본 평가 기반으로 만듭니다. 출력 품질의 차이는 실행 가변성이 아닌 업스트림 표현에 기인합니다. 이 속성은 동일한 파이프라인 내에서 외부 기준과 사람의 결정에 대해 TEMPO 모델을 벤치마킹하는 데 부하를 줍니다.

UMI

Unified Model Interface

운영 중

UMI는 Rkive 스택 내의 모든 모델 상호 작용에 대한 입출력 계약을 정의합니다. 입력 측에서는 MFI 정규화 표현을 적용하여 공급자 전체에서 아키텍처에 구애받지 않는 미디어 인코딩을 보장합니다. 출력 측면에서는 검증된 STR 스키마에 대한 모델 응답을 제한하여 다양한 모델(TEMPO를 포함한 외부 공급자 및 내부 연구 모델)의 출력이 구조적으로 비교 가능하도록 보장합니다.

이러한 양방향 표준화를 통해 추가 계측 없이 기본 교차 모델 평가가 가능해졌습니다. 모델 선택, 대체 라우팅 및 비교 벤치마킹은 인터페이스 수준에서 작동하며 위의 제품 계층과 아래의 실행 계층 모두에 투명합니다. UMI는 기술적으로 정확한 의미에서 시스템 모델을 독립적으로 만드는 것입니다. 즉, 위 또는 아래의 어떤 구성 요소도 공급자별 가정을 전달하지 않습니다.

협업

우리는 멀티모달 추론 모델 및 시스템을 위한 continuity models를 발전시키는 연구자, 엔지니어, 파트너와 협력합니다. 범위는 멀티모달 표현, 장기 시퀀스 모델링, 시간적 일관성, 프로덕션 규모 추론입니다.

이 continuity-first 방향과 맞는 작업을 하고 있다면 연락 주세요.

careers@rkiveai.com · partners@rkiveai.com

연구 | Rkive AI