الجديد والأول من OpenAI! – نموذج توليد الفيديو، سورا، يمكنه تحقيق مآثر سينمائية مثيرة للإعجاب حقًا. لكن النموذج متساوي أكثر قادرة أكثر مما ادعى OpenAI في البداية، على الأقل انطلاقا من نقطة فنية ورق نشرت هذا المساء.
تسلط الورقة، التي تحمل عنوان “نماذج إنشاء الفيديو كمحاكاة عالمية”، والتي شارك في تأليفها العديد من الباحثين في OpenAI، الضوء على الجوانب الرئيسية لبنية Sora، وتكشف على سبيل المثال أن Sora يمكنه إنشاء مقاطع فيديو ذات دقة عشوائية ونسبة عرض إلى ارتفاع (تصل إلى 1080 بكسل). وفقًا للوثيقة، فإن Sora قادر على تنفيذ مجموعة من مهام تحرير الصور والفيديو، بدءًا من إنشاء مقاطع فيديو متكررة إلى تمديد مقاطع الفيديو للأمام أو للخلف في الوقت المناسب، إلى تغيير خلفية مقطع فيديو موجود.
لكن أكثر ما يثير اهتمام هذا المؤلف هو قدرة سورا على “محاكاة العوالم الرقمية”، على حد تعبير المؤلفين المشاركين في OpenAI. في إحدى التجارب، قام OpenAI بتغذية Sora بمطالبات تحتوي على كلمة “Minecraft” وطلب منه تقديم شاشة عرض معلومات مقنعة تشبه لعبة Minecraft وطريقة اللعب – بالإضافة إلى ديناميكيات اللعبة، بما في ذلك الفيزياء – مع التحكم في نفس الوقت في شخصية اللاعب في اللعبة.
إذن كيف يستطيع سورا القيام بذلك؟ كذلك مثل لاحظ بقلم جيم فان، الباحث الرئيسي في Nvidia (عبر الكوارتز)، يعد Sora “محركًا فيزيائيًا يعتمد على البيانات” أكثر من كونه محركًا إبداعيًا. لا يتعلق الأمر فقط بإنشاء صورة أو مقطع فيديو واحد، بل تحديد فيزياء كل كائن في بيئة ما وتقديم صورة أو مقطع فيديو (أو عالم تفاعلي ثلاثي الأبعاد، حسب الاقتضاء) بناءً على تلك الحسابات.
“تشير هذه القدرات إلى أن التوسع المستمر في نماذج الفيديو يمثل طريقًا واعدًا نحو تطوير أجهزة محاكاة عالية الأداء للعالم المادي والرقمي، بالإضافة إلى الكائنات والحيوانات والأشخاص الذين يعيشون هناك”، كما كتب المؤلفون المشاركون في OpenAI.
الآن تنطبق قيود Sora المعتادة على عالم ألعاب الفيديو. لا يستطيع النموذج أن يقارب بدقة فيزياء التفاعلات الأساسية مثل كسر الزجاج. وحتى مع التفاعلات يمكن النموذج، غالبًا ما يكون سورا غير متسق – على سبيل المثال تصوير شخص يأكل هامبرغر ولكنه يفشل في إظهار علامات العض.
ومع ذلك، إذا قرأت المقال بشكل صحيح، فيبدو أن Sora يمكن أن يمهد الطريق لألعاب أكثر واقعية – وربما حتى واقعية – تم إنشاؤها من الناحية الإجرائية من الأوصاف النصية وحدها. إنه أمر مثير ومرعب في نفس الوقت (فكر في الآثار المترتبة على التزييف العميق، على سبيل المثال) – وربما يكون هذا هو السبب وراء اختيار OpenAI لوضع Sora خلف جداً برنامج وصول محدود في هذا الوقت.
ونأمل أن نعرف المزيد في أقرب وقت ممكن.