TEMPO
Temporal Event Modeling for Perception & Organization
Các mô hình đa phương thức được đào tạo về dự đoán mã thông báo tiếp theo hoặc các mục tiêu tương phản phát triển các biểu diễn khung đơn và ngữ cảnh ngắn mạnh mẽ. Họ không học cấu trúc sự kiện thời gian. Chúng không mô hình hóa cách các trạng thái ngữ nghĩa chuyển đổi theo thời gian, mối quan hệ phụ thuộc nhân quả nào kết nối các sự kiện hoặc cách thức lan truyền ý định thông qua một chuỗi. Các thuộc tính này không xuất hiện một cách đáng tin cậy chỉ từ quy mô — chúng yêu cầu các tín hiệu giám sát và mục tiêu biểu diễn được thiết kế rõ ràng xung quanh cấu trúc thời gian.
TEMPO nghiên cứu các biểu diễn sự kiện thời gian đã học cho các chuỗi đa phương thức. Giả thuyết trung tâm là lý luận đa phương thức có chiều dài đáng tin cậy đòi hỏi phải lập mô hình rõ ràng về ranh giới sự kiện, sự phụ thuộc nguyên nhân và chuyển đổi trạng thái ngữ nghĩa như các đối tượng biểu diễn hạng nhất - không phải là mối tương quan ngầm của các tính năng ở cấp độ khung. Chúng tôi phát triển và đánh giá các biểu diễn này bằng cách sử dụng các tạo phẩm STR làm mục tiêu giám sát, cung cấp tín hiệu huấn luyện có cấu trúc theo thời gian, dày đặc về mặt ngữ nghĩa với chi phí thấp hơn đáng kể so với các mục tiêu tạo không gian pixel hoặc không gian tiềm ẩn.
Đào tạo về các quyết định thực tế của con người trong sản xuất - thay vì các tiêu chuẩn tổng hợp hoặc video được quét trên web - là một lựa chọn phương pháp có chủ ý. Các quyết định biên tập của con người mã hóa lý luận ngầm về thời gian: điều gì quan trọng, khi nào nó quan trọng và tại sao nó lại liên quan đến những gì xảy ra trước đó. Tín hiệu này không có sẵn trong bộ dữ liệu video tiêu chuẩn và không thể tái tạo bên ngoài bề mặt triển khai sản xuất.
Chương trình diễn ra theo ba giai đoạn, mỗi giai đoạn tạo ra các hiện vật nghiên cứu được tích hợp vào sản xuất trước khi bắt đầu giai đoạn tiếp theo.
Giai đoạn 1: Kiến trúc biểu diễn sự kiện theo thời gian. Khai thác đánh giá ngữ cảnh dài được thiết kế để mang lại sự gắn kết nhân quả và nhất quán ngữ nghĩa trong quá trình chuyển đổi phân phối. Tích hợp sản xuất để đo lường trong thế giới thực dựa trên tín hiệu trực tiếp của con người.
Giai đoạn 2: Khái quát hóa các miền chéo của các biểu diễn thời gian. Độ bền dưới sự nhiễu loạn đầu vào và chia tỷ lệ độ dài ngữ cảnh. Đánh giá dựa trên các đường cơ sở đa phương thức bên ngoài thông qua UMI.
Giai đoạn 3: Lập luận tuần tự theo chiều dài trên các bối cảnh đa phương thức mở rộng. Chuyển giao nhiệm vụ chéo của các biểu diễn thời gian ngoài phạm vi đào tạo. Tiết lộ có chọn lọc ra bên ngoài phù hợp với sở hữu trí tuệ và chiến lược hợp tác.