Nghiên cứu của chúng tôi.

Rkive nghiên cứu nền tảng của AI đa phương thức đáng tin cậy trong production: cách mô hình và hệ thống hiểu, quyết định và hành động trên video, audio và hình ảnh theo thời gian. Chúng tôi giới thiệu Continuity Models như khung nghiên cứu riêng và dùng time models như cách gọi tổng quát, dễ tiếp cận hơn.

"Continuity models" vì các mô hình này duy trì tính liên tục: theo thời gian, theo logic và trong vận hành. Thuật ngữ này có nghĩa kép: continuity theo thời gian là cơ chế, continuity theo logic là kết quả.

Đây không chỉ là nhãn nghiên cứu: cùng stack continuity đó đã được triển khai trong Studio và Base.

TEMPO

Temporal Event Modeling for Perception & Organization

Đang nghiên cứu

Các mô hình đa phương thức được đào tạo về dự đoán mã thông báo tiếp theo hoặc các mục tiêu tương phản phát triển các biểu diễn khung đơn và ngữ cảnh ngắn mạnh mẽ. Họ không học cấu trúc sự kiện thời gian. Chúng không mô hình hóa cách các trạng thái ngữ nghĩa chuyển đổi theo thời gian, mối quan hệ phụ thuộc nhân quả nào kết nối các sự kiện hoặc cách thức lan truyền ý định thông qua một chuỗi. Các thuộc tính này không xuất hiện một cách đáng tin cậy chỉ từ quy mô — chúng yêu cầu các tín hiệu giám sát và mục tiêu biểu diễn được thiết kế rõ ràng xung quanh cấu trúc thời gian.

TEMPO nghiên cứu các biểu diễn sự kiện thời gian đã học cho các chuỗi đa phương thức. Giả thuyết trung tâm là lý luận đa phương thức có chiều dài đáng tin cậy đòi hỏi phải lập mô hình rõ ràng về ranh giới sự kiện, sự phụ thuộc nguyên nhân và chuyển đổi trạng thái ngữ nghĩa như các đối tượng biểu diễn hạng nhất - không phải là mối tương quan ngầm của các tính năng ở cấp độ khung. Chúng tôi phát triển và đánh giá các biểu diễn này bằng cách sử dụng các tạo phẩm STR làm mục tiêu giám sát, cung cấp tín hiệu huấn luyện có cấu trúc theo thời gian, dày đặc về mặt ngữ nghĩa với chi phí thấp hơn đáng kể so với các mục tiêu tạo không gian pixel hoặc không gian tiềm ẩn.

Đào tạo về các quyết định thực tế của con người trong sản xuất - thay vì các tiêu chuẩn tổng hợp hoặc video được quét trên web - là một lựa chọn phương pháp có chủ ý. Các quyết định biên tập của con người mã hóa lý luận ngầm về thời gian: điều gì quan trọng, khi nào nó quan trọng và tại sao nó lại liên quan đến những gì xảy ra trước đó. Tín hiệu này không có sẵn trong bộ dữ liệu video tiêu chuẩn và không thể tái tạo bên ngoài bề mặt triển khai sản xuất.

Chương trình diễn ra theo ba giai đoạn, mỗi giai đoạn tạo ra các hiện vật nghiên cứu được tích hợp vào sản xuất trước khi bắt đầu giai đoạn tiếp theo.

Giai đoạn 1: Kiến trúc biểu diễn sự kiện theo thời gian. Khai thác đánh giá ngữ cảnh dài được thiết kế để mang lại sự gắn kết nhân quả và nhất quán ngữ nghĩa trong quá trình chuyển đổi phân phối. Tích hợp sản xuất để đo lường trong thế giới thực dựa trên tín hiệu trực tiếp của con người.

Giai đoạn 2: Khái quát hóa các miền chéo của các biểu diễn thời gian. Độ bền dưới sự nhiễu loạn đầu vào và chia tỷ lệ độ dài ngữ cảnh. Đánh giá dựa trên các đường cơ sở đa phương thức bên ngoài thông qua UMI.

Giai đoạn 3: Lập luận tuần tự theo chiều dài trên các bối cảnh đa phương thức mở rộng. Chuyển giao nhiệm vụ chéo của các biểu diễn thời gian ngoài phạm vi đào tạo. Tiết lộ có chọn lọc ra bên ngoài phù hợp với sở hữu trí tuệ và chiến lược hợp tác.

MFI

Multimodal Fusion Interface

Đang hoạt động

Đầu vào phương tiện không đồng nhất - chuỗi video, dạng sóng âm thanh, hình ảnh - được chuẩn hóa thành chuỗi mã thông báo theo phương thức cụ thể trước khi suy luận mô hình. MFI hỗ trợ cả phản ứng tổng hợp sớm, trong đó các chuỗi mã thông báo đa phương thức được mã hóa chung vào không gian biểu diễn chung và phản ứng tổng hợp muộn, trong đó mã hóa theo phương thức được chiếu thành dữ liệu có cấu trúc cho các mô hình xử lý các phương thức một cách độc lập. Sự trừu tượng hóa này tách riêng mã hóa phương tiện ngược dòng khỏi kiến ​​trúc mô hình hạ lưu, cho phép trình bày đầu vào nhất quán giữa các nhà cung cấp với các chiến lược mã thông báo khác nhau và các ràng buộc về cửa sổ ngữ cảnh.

STR

Structured Temporal Representation

Đang hoạt động

Các đầu ra của mô hình bị ràng buộc ở một lược đồ được xác thực, tham số hóa mã hóa cấu trúc ngữ nghĩa và thời gian thay vì các mục tiêu tạo không gian pixel hoặc không gian tiềm ẩn. Các tạo phẩm STR được nhập, tạo phiên bản và thể hiện rõ ràng ranh giới sự kiện, quan hệ nhân quả và chuyển đổi trạng thái ngữ nghĩa dưới dạng các đối tượng riêng biệt, có thể kiểm tra được.

Công thức này tách rời sự hiểu biết về video khỏi việc tạo video trong quá trình đào tạo. Các mục tiêu STR duy trì mật độ thông tin cần thiết cho việc giám sát lý luận theo thời gian đồng thời tránh được chi phí tính toán của quá trình tạo tự hồi quy hoặc dựa trên khuếch tán. Các tạo phẩm này có thể so sánh trực tiếp giữa các biến thể mô hình, cung cấp tín hiệu giám sát nhất quán và dễ điều khiển để huấn luyện các mô hình sự kiện thời gian. Việc tách rời này mang lại hiệu quả cho cả nghiên cứu — cho phép đánh giá so sánh nghiêm ngặt giữa các kiến ​​trúc — và để mở rộng quy mô, trong đó nó làm giảm các yêu cầu điện toán đào tạo theo bậc độ lớn so với các mục tiêu giám sát dựa trên thế hệ.

Việc hiểu video và tạo video có thể được tách rời trong quá trình nghiên cứu và phát triển và được tách rời một cách có chọn lọc.

RRE

Rkive Rendering Engine

Đang hoạt động

Biểu diễn tạm thời có cấu trúc được thực thi thông qua quy trình kết xuất được tăng tốc GPU, đóng vai trò là giai đoạn cuối của vòng suy luận mô hình. Công cụ kết xuất chấp nhận các tạo phẩm STR làm đầu vào và tạo ra các đầu ra phương tiện xác định, với hành vi thực thi được chỉ định đầy đủ bởi tạo phẩm đó và độc lập với mô hình đã tạo ra nó.

Bởi vì các tạo phẩm STR do AI tạo ra và do con người tạo ra có chung lược đồ và đi qua cùng một môi trường thực thi, nên kết quả đầu ra được tạo ra trong các điều kiện tính toán giống hệt nhau. Điều này làm cho công cụ kết xuất trở thành chất nền đánh giá gốc: sự khác biệt về chất lượng đầu ra là do cách trình bày ngược dòng chứ không phải do tính biến đổi khi thực thi. Thuộc tính này chịu tải để đo điểm chuẩn các mô hình TEMPO dựa trên cả đường cơ sở bên ngoài và các quyết định của con người trong cùng một quy trình.

UMI

Unified Model Interface

Đang hoạt động

UMI xác định hợp đồng đầu vào-đầu ra cho tất cả các tương tác mô hình trong ngăn xếp Rkive. Về mặt đầu vào, nó thực thi các biểu diễn chuẩn hóa MFI, đảm bảo mã hóa phương tiện không phụ thuộc vào kiến ​​trúc giữa các nhà cung cấp. Về phía đầu ra, nó hạn chế các phản hồi của mô hình đối với các lược đồ STR đã được xác thực, đảm bảo rằng đầu ra từ các mô hình khác nhau - nhà cung cấp bên ngoài và mô hình nghiên cứu nội bộ bao gồm TEMPO - có thể so sánh được về mặt cấu trúc.

Tiêu chuẩn hóa hai chiều này cho phép đánh giá nhiều mô hình gốc mà không cần thiết bị bổ sung. Lựa chọn mô hình, định tuyến dự phòng và đo điểm chuẩn so sánh hoạt động ở cấp giao diện, minh bạch đối với cả lớp sản phẩm ở trên và lớp thực thi bên dưới. UMI là yếu tố làm cho mô hình hệ thống trở nên bất khả tri theo nghĩa chính xác về mặt kỹ thuật: không có thành phần nào ở trên hoặc dưới nó mang các giả định dành riêng cho nhà cung cấp.

Cộng tác

Chúng tôi làm việc với các nhà nghiên cứu, kỹ sư và đối tác đang thúc đẩy continuity models cho các mô hình và hệ thống suy luận đa phương thức, gồm biểu diễn đa phương thức, mô hình chuỗi dài hạn, tính nhất quán theo thời gian và suy luận ở quy mô production.

Nếu công việc của bạn phù hợp với hướng continuity-first này, hãy liên hệ.

careers@rkiveai.com · partners@rkiveai.com

Nghiên cứu | Rkive AI