TEMPO
Temporal Event Modeling for Perception & Organization
تقوم النماذج متعددة الوسائط المدربة على التنبؤ بالرمز التالي أو الأهداف المتباينة بتطوير تمثيلات قوية ذات إطار واحد وسياق قصير. إنهم لا يتعلمون بنية الحدث الزمني. إنهم لا يشكلون نموذجًا لكيفية انتقال الحالات الدلالية عبر الزمن، أو ما هي التبعيات السببية التي تربط الأحداث، أو كيفية انتشار النية عبر التسلسل. لا تظهر هذه الخصائص بشكل موثوق من المقياس وحده، فهي تتطلب إشارات إشراف وأهداف تمثيلية مصممة بشكل واضح حول البنية الزمنية.
تعلمت أبحاث TEMPO تمثيلات الأحداث الزمنية للتسلسلات متعددة الوسائط. الفرضية المركزية هي أن الاستدلال متعدد الوسائط الموثوق به طويل الأفق يتطلب نمذجة واضحة لحدود الأحداث، والتبعيات السببية، وانتقالات الحالة الدلالية ككائنات تمثيلية من الدرجة الأولى - وليس كارتباطات ضمنية لميزات مستوى الإطار. نقوم بتطوير وتقييم هذه التمثيلات باستخدام منتجات STR كأهداف إشرافية، والتي توفر إشارة تدريب كثيفة لغويًا ومنظمة مؤقتًا بتكلفة أقل بكثير من أهداف توليد مساحة البكسل أو المساحة الكامنة.
يعد التدريب على القرارات البشرية الحقيقية في الإنتاج - بدلاً من المعايير الاصطناعية أو مقاطع الفيديو المحذوفة على شبكة الإنترنت - خيارًا منهجيًا متعمدًا. إن القرارات التحريرية البشرية تشفر المنطق الزمني الضمني: ما الذي يهم، ومتى يهم، ولماذا يرتبط بما سبقه. هذه الإشارة غير متوفرة في مجموعات بيانات الفيديو القياسية ولا يمكن تكرارها خارج سطح نشر الإنتاج.
يعمل البرنامج على ثلاث مراحل، كل منها تنتج أعمالًا بحثية مدمجة في الإنتاج قبل بدء المرحلة التالية.
المرحلة 1: بنية تمثيل الحدث الزمني. أداة تقييم السياق الطويل مصممة للتماسك السببي والاتساق الدلالي في ظل تحول التوزيع. تكامل الإنتاج للقياس في العالم الحقيقي ضد الإشارة البشرية الحية.
المرحلة 2: تعميم التمثيلات الزمنية عبر المجالات. المتانة في ظل اضطراب المدخلات وقياس طول السياق. التقييم مقابل خطوط الأساس الخارجية المتعددة الوسائط من خلال UMI.
المرحلة 3: الاستدلال المتسلسل طويل الأفق عبر سياقات موسعة متعددة الوسائط. نقل التمثيلات الزمنية عبر المهام خارج نطاق التدريب. الكشف الخارجي الانتقائي المتوافق مع استراتيجية الملكية الفكرية والشراكة.