أبحاثنا.

تبحث Rkive في أسس ذكاء اصطناعي متعدد الوسائط موثوق في الإنتاج: كيف تفهم النماذج والأنظمة الفيديو والصوت والصور، وتقرر وتتصرف عبر الزمن. قدمنا Continuity Models كإطارنا الخاص، ونستخدم time models كمصطلح أعم وأسهل عند الحاجة.

نسميه "Continuity models" لأن هذه النماذج تحافظ على الاستمرارية: زمنيًا ومنطقيًا وتشغيليًا. للمصطلح معنى مزدوج: الاستمرارية الزمنية كآلية، والاستمرارية المنطقية كنتيجة.

هذا ليس مجرد وصف بحثي؛ نفس طبقة continuity تعمل فعليًا اليوم داخل Studio وBase.

TEMPO

Temporal Event Modeling for Perception & Organization

قيد البحث

تقوم النماذج متعددة الوسائط المدربة على التنبؤ بالرمز التالي أو الأهداف المتباينة بتطوير تمثيلات قوية ذات إطار واحد وسياق قصير. إنهم لا يتعلمون بنية الحدث الزمني. إنهم لا يشكلون نموذجًا لكيفية انتقال الحالات الدلالية عبر الزمن، أو ما هي التبعيات السببية التي تربط الأحداث، أو كيفية انتشار النية عبر التسلسل. لا تظهر هذه الخصائص بشكل موثوق من المقياس وحده، فهي تتطلب إشارات إشراف وأهداف تمثيلية مصممة بشكل واضح حول البنية الزمنية.

تعلمت أبحاث TEMPO تمثيلات الأحداث الزمنية للتسلسلات متعددة الوسائط. الفرضية المركزية هي أن الاستدلال متعدد الوسائط الموثوق به طويل الأفق يتطلب نمذجة واضحة لحدود الأحداث، والتبعيات السببية، وانتقالات الحالة الدلالية ككائنات تمثيلية من الدرجة الأولى - وليس كارتباطات ضمنية لميزات مستوى الإطار. نقوم بتطوير وتقييم هذه التمثيلات باستخدام منتجات STR كأهداف إشرافية، والتي توفر إشارة تدريب كثيفة لغويًا ومنظمة مؤقتًا بتكلفة أقل بكثير من أهداف توليد مساحة البكسل أو المساحة الكامنة.

يعد التدريب على القرارات البشرية الحقيقية في الإنتاج - بدلاً من المعايير الاصطناعية أو مقاطع الفيديو المحذوفة على شبكة الإنترنت - خيارًا منهجيًا متعمدًا. إن القرارات التحريرية البشرية تشفر المنطق الزمني الضمني: ما الذي يهم، ومتى يهم، ولماذا يرتبط بما سبقه. هذه الإشارة غير متوفرة في مجموعات بيانات الفيديو القياسية ولا يمكن تكرارها خارج سطح نشر الإنتاج.

يعمل البرنامج على ثلاث مراحل، كل منها تنتج أعمالًا بحثية مدمجة في الإنتاج قبل بدء المرحلة التالية.

المرحلة 1: بنية تمثيل الحدث الزمني. أداة تقييم السياق الطويل مصممة للتماسك السببي والاتساق الدلالي في ظل تحول التوزيع. تكامل الإنتاج للقياس في العالم الحقيقي ضد الإشارة البشرية الحية.

المرحلة 2: تعميم التمثيلات الزمنية عبر المجالات. المتانة في ظل اضطراب المدخلات وقياس طول السياق. التقييم مقابل خطوط الأساس الخارجية المتعددة الوسائط من خلال UMI.

المرحلة 3: الاستدلال المتسلسل طويل الأفق عبر سياقات موسعة متعددة الوسائط. نقل التمثيلات الزمنية عبر المهام خارج نطاق التدريب. الكشف الخارجي الانتقائي المتوافق مع استراتيجية الملكية الفكرية والشراكة.

MFI

Multimodal Fusion Interface

نشط

يتم تطبيع مدخلات الوسائط غير المتجانسة - تسلسلات الفيديو، وأشكال الموجات الصوتية، والصور - إلى تسلسلات رمزية خاصة بالطريقة قبل استنتاج النموذج. تدعم مؤسسة MFI كلاً من الدمج المبكر، حيث يتم تشفير تسلسلات الرموز المميزة عبر الوسائط بشكل مشترك في مساحة تمثيل مشتركة، والدمج المتأخر، حيث يتم عرض الترميزات لكل طريقة في بيانات منظمة للنماذج التي تعالج الطرائق بشكل مستقل. يفصل هذا التجريد ترميز الوسائط الأولية عن بنية النموذج النهائي، مما يتيح تمثيلات مدخلات متسقة عبر مقدمي الخدمة الذين لديهم استراتيجيات مختلفة للترميز وقيود نافذة السياق.

STR

Structured Temporal Representation

نشط

تقتصر مخرجات النموذج على مخطط تم التحقق من صحته ومحدد المعالم لترميز البنية الدلالية والزمنية بدلاً من أهداف توليد مساحة البكسل أو المساحة الكامنة. تتم كتابة عناصر STR وإصدارها وتمثيل حدود الأحداث والعلاقات السببية وانتقالات الحالة الدلالية بشكل واضح ككائنات منفصلة وقابلة للفحص.

تفصل هذه الصيغة فهم الفيديو عن توليد الفيديو أثناء التدريب. تحافظ أهداف STR على كثافة المعلومات المطلوبة للإشراف على الاستدلال الزمني مع تجنب العبء الحسابي للانحدار الذاتي أو التوليد القائم على الانتشار. القطع الأثرية قابلة للمقارنة مباشرة عبر متغيرات النموذج، مما يوفر إشارة إشراف قابلة للتتبع ومتسقة لتدريب نماذج الأحداث الزمنية. يُعد هذا الفصل مفيدًا للبحث - مما يتيح إجراء تقييم مقارن صارم عبر البنى التحتية - وللتوسيع، حيث يقلل من متطلبات حوسبة التدريب بأوامر من حيث الحجم مقارنة بأهداف الإشراف القائمة على التوليد.

يمكن فصل فهم الفيديو وتوليد الفيديو أثناء البحث والتطوير وإعادة اقترانهما بشكل انتقائي.

RRE

Rkive Rendering Engine

نشط

يتم تنفيذ التمثيلات الزمنية المنظمة من خلال خط أنابيب العرض المسرع بواسطة GPU والذي يعمل كمرحلة نهائية لحلقة الاستدلال النموذجية. يقبل محرك العرض عناصر STR كمدخلات وينتج مخرجات وسائط حتمية، مع سلوك التنفيذ المحدد بالكامل بواسطة القطعة الأثرية ومستقل عن النموذج الذي أنتجها.

نظرًا لأن عناصر STR التي أنشأها الذكاء الاصطناعي والتي كتبها الإنسان تشترك في نفس المخطط وتمر عبر نفس بيئة التنفيذ، يتم إنتاج المخرجات في ظل ظروف حسابية متطابقة. وهذا يجعل محرك العرض ركيزة تقييم أصلية: تُعزى الاختلافات في جودة الإخراج إلى التمثيل الأولي، وليس إلى تقلب التنفيذ. تعتبر هذه الخاصية بمثابة حاملة لقياس نماذج TEMPO مقابل كل من خطوط الأساس الخارجية والقرارات البشرية ضمن نفس المسار.

UMI

Unified Model Interface

نشط

يحدد UMI عقد الإدخال والإخراج لجميع تفاعلات النموذج داخل مكدس Rkive. ومن ناحية الإدخال، فإنه يفرض تمثيلات مقيسة من قبل مؤسسات التمويل الأصغر، مما يضمن تشفير الوسائط غير المبني على البنية عبر مقدمي الخدمة. ومن ناحية المخرجات، فهو يقيد استجابات النماذج لمخططات STR التي تم التحقق من صحتها، مما يضمن أن تكون المخرجات من النماذج المختلفة - مقدمي الخدمات الخارجيين ونماذج البحث الداخلية بما في ذلك TEMPO - قابلة للمقارنة من الناحية الهيكلية.

يتيح هذا التوحيد ثنائي الاتجاه التقييم الأصلي للنماذج المتقاطعة دون الحاجة إلى أدوات إضافية. يعمل اختيار النموذج، والتوجيه الاحتياطي، والقياس المقارن على مستوى الواجهة، ويكون شفافًا لكل من طبقة المنتج أعلاه وطبقة التنفيذ أدناه. UMI هو ما يجعل نموذج النظام حياديًا بالمعنى الدقيق من الناحية الفنية: لا يوجد مكون فوقه أو أسفله يحمل افتراضات خاصة بالمزود.

التعاون

نعمل مع الباحثين والمهندسين والشركاء الذين يدفعون continuity models لنماذج وأنظمة الاستدلال متعدد الوسائط، بما في ذلك التمثيل متعدد الوسائط، ونمذجة التسلسل طويل الأفق، والاتساق الزمني، والاستدلال على نطاق الإنتاج.

إذا كان عملك متوافقًا مع هذا الاتجاه القائم على continuity، تواصل معنا.

careers@rkiveai.com · partners@rkiveai.com

الأبحاث | Rkive AI