يشرح منشئو الفيلم القصير المبني على Sora نقاط القوة والقيود في الفيديو الناتج عن الذكاء الاصطناعي
Sora، أداة إنشاء الفيديو الخاصة بـ OpenAI فاجأ مجتمع الذكاء الاصطناعي في فبراير بفيديو سلس وواقعي يبدو أنه يتقدم على منافسيه بخطوة. لكن العرض الأول الذي تم تنظيمه بعناية أهمل العديد من التفاصيل – التفاصيل التي تم ملؤها بواسطة مخرج أفلام تم منحه الوصول المبكر لإنشاء فيلم قصير باستخدام Sora.
Shy Kids هو فريق إنتاج رقمي مقره تورونتو تم اختياره بواسطة OpenAI كواحد من القلائل إنتاج أفلام قصيرة في المقام الأول لأغراض ترويجية لـ OpenAI، على الرغم من تمتعهم بقدر كبير من الحرية الإبداعية عن طريق إنشاء “رأس الهواء”. في مقابلة مع منفذ أخبار المؤثرات البصرية fxguideوصف فنان ما بعد الإنتاج باتريك سيديربيرج “استخدام سورا بالفعل” كجزء من عمله.
ولعل أهم ما يمكن استنتاجه بالنسبة لمعظم الناس هو ببساطة ما يلي: على الرغم من أن مقال OpenAI الذي يسلط الضوء على الأفلام القصيرة يترك القارئ يفترض أنها خرجت بشكل أو بآخر بشكل كامل من Sora، إلا أن الحقيقة هي أن هذه كانت إنتاجات احترافية، مكتملة بقصص القصة والتحرير والتصوير. تصحيح الألوان، وما بعد العمل مثل rotoscoping وVFX. تمامًا مثلما تقول شركة Apple “تم التصوير على iPhone” ولكنها لا تُظهر إعداد الاستوديو والإضاءة الاحترافية وعمل الألوان بعد الواقعة، يتحدث منشور Sora فقط عما يسمح للناس بفعله، وليس عن الطريقة التي فعلوا بها ذلك بالفعل.
مقابلة سيديربيرج مثيرة للاهتمام وغير فنية إلى حد ما، لذا إذا كنت مهتمًا، انتقل إلى fxguide وقراءته. ولكن إليك بعض المعلومات المثيرة للاهتمام حول استخدام Sora والتي تخبرنا أن النموذج، على الرغم من كونه مثيرًا للإعجاب، قد يكون أقل قفزة عملاقة مما كنا نعتقد.
وتظل السيطرة في هذه المرحلة هي الشيء الأكثر رغبة والأكثر مراوغة أيضًا. …أفضل ما يمكن أن نحصل عليه هو أن نكون مفرطين في الوصف في مطالباتنا. Expliquer la garde-robe des personnages, ainsi que le type de ballon, était notre moyen de garantir la cohérence, car plan par plan/génération en génération, il n’y a pas encore de fonctionnalité mise en place pour un contrôle total sur la تناغم.
بمعنى آخر، تتطلب الأسئلة البسيطة في السينما التقليدية، مثل اختيار لون ملابس الشخصية، حلولاً وضوابط معقدة في نظام توليدي، لأن كل لقطة يتم إنشاؤها بشكل مستقل عن اللقطات الأخرى. من الواضح أن هذا يمكن أن يتغير، لكنه بالتأكيد يتطلب الكثير من العمل في الوقت الحالي.
كان لا بد أيضًا من مراقبة نتائج سورا بحثًا عن العناصر غير المرغوب فيها: وصف سيديربيرج كيف يقوم النموذج بانتظام بإنشاء وجه على البالون الذي تمتلكه الشخصية الرئيسية كرأس، أو خيط يتدلى أمامه. كان لا بد من إزالتها عن طريق البريد، وهي عملية شاقة أخرى، إذا لم يتمكنوا من تلقي المطالبة باستبعادهم.
التوقيت الدقيق وحركات الشخصيات أو الكاميرا ليس ممكنًا حقًا: “هناك القليل من التحكم الزمني في مكان حدوث هذه الإجراءات المختلفة في التوليد الفعلي، لكنها ليست دقيقة…”إنها نوع من اللقطة في الظلام،” سيديربيرج قال.
على سبيل المثال، يعد توقيت إيماءة مثل الموجة عملية صعبة للغاية وتعتمد على الاقتراحات، على عكس الرسوم المتحركة اليدوية. واللقطة مثل المقلاة فوق جسد الشخصية قد تعكس أو لا تعكس ما يريده المخرج – لذا قام الفريق في هذه الحالة بإخراج لقطة مؤلفة في اتجاه عمودي وقاموا بقصها في مرحلة ما بعد الإنتاج. غالبًا ما كانت المقاطع التي تم إنشاؤها بالحركة البطيئة دون سبب محدد.
في الواقع، كان استخدام لغة الأفلام الشائعة مثل “pan right” أو “dolly” غير متسق بشكل عام، كما قال سيديربيرج، وهو ما وجده الفريق مفاجئًا للغاية.
وقال: “قبل أن يتواصل الباحثون مع الفنانين لاستخدام هذه الأداة، لم يكونوا يفكرون حقًا مثل صانعي الأفلام”.
ونتيجة لذلك، ركض الفريق مئات الأجيال، واستمر كل منها من 10 إلى 20 ثانية، وانتهى الأمر باستخدام حفنة قليلة فقط. قدّر سيديربيرج النسبة بـ 300:1 – لكن بالطبع سنفاجأ جميعًا بهذه النسبة في جلسة التصوير العادية.
الفريق في الواقع لقد قمت بعمل فيديو خلف الكواليس قليلاً شرح بعض المشاكل التي واجهوها، إذا كنت فضوليًا. مثل الكثير من المحتوى المجاور للذكاء الاصطناعي، التعليقات تنتقد بشدة المشروع بأكمله – ولكن ليس بنفس القدر من القدح مثل إعلان مدعوم بالذكاء الاصطناعي رأيناه يُسخر منه مؤخرًا.
آخر قضية مثيرة للاهتمام تتعلق بحقوق الطبع والنشر: إذا طلبت من سورا أن يعطيك مقطعًا من “حرب النجوم”، فسوف يرفض. وإذا حاولت التحايل عليه بـ “رجل يرتدي فستانًا بسيف ليزر على متن مركبة فضائية مستقبلية رجعية”، فسوف يرفض أيضًا، لأنه من خلال بعض الآليات يتعرف على ما تحاول القيام به. كما رفض القيام بـ “لقطة أرونوفسكي” أو “تكبير هيتشكوك”.
من ناحية، فمن المنطقي تماما. لكن هذا يطرح السؤال: إذا كان Sora يعرف ما هو، فهل يعني ذلك أن النموذج قد تم تدريبه على هذا المحتوى، ليدرك بشكل أفضل أنه ينتهك المحتوى؟ OpenAI، التي تحافظ على بطاقات بيانات التدريب الخاصة بها قريبة من السترة – إلى حد السخافة، كما هو الحال مع مقابلة CTO ميرا موراتي مع جوانا ستيرن – من المؤكد تقريبًا أنه لن يخبرنا أبدًا.
أما بالنسبة لسورا واستخدامه في صناعة الأفلام، فمن الواضح أنها أداة قوية ومفيدة في مكانه، لكن مكانه ليس في “صناعة الأفلام من الصفر”. مرة أخرى. وكما قال شرير آخر، “سيأتي ذلك لاحقًا”.