تم إطلاق مولد الفيديو AI التابع لـ Alibaba للتو على Sora عن طريق ابتزاز السيدة Sora

Maywiltech01/03/2024

0 20 3 دقائق

علي بابا يريدك أن تقارن منتجاته الجديدة منظمة العفو الدولية مولد الفيديو ل سورا من OpenAI. وإلا، لماذا تستخدمها لجعل أشهر إبداعات سورا هي أغنية دوا ليبا؟

في يوم الثلاثاء، أصدرت منظمة تسمى معهد الحوسبة الذكية التابع لشركة علي بابا الصينية العملاقة للتجارة الإلكترونية، تقريرًا ورق حول مولد فيديو جديد مثير للاهتمام يعمل بالذكاء الاصطناعي قام بتطويره وهو فعال بشكل لا يصدق في تحويل الصور الثابتة للوجوه إلى ممثلين مقبولين ومغنيين يتمتعون بشخصية كاريزمية. يُطلق على النظام اسم EMO، وهو اسم خلفي ممتع من المفترض أنه مأخوذ من الكلمات “Emotive Portrait Alive” (ولكن، في هذه الحالة، لماذا لا يُسمى “EPO”؟).

EMO هي لمحة عن المستقبل الذي يقوم فيه نظام مثل Sora بإنشاء عوالم فيديو، وبدلاً من أن يسكنها أشخاص كتم وجذابون ينظرون إلى بعضهم البعض قليلاًيقول “الممثلون” في إبداعات الذكاء الاصطناعي هذه أشياءً – أو حتى يغنون.

وضعت شركة علي بابا مقاطع فيديو تجريبية على GitHub لاستعراض إطار عمل إنشاء الفيديو الجديد. يتضمن ذلك مقطع فيديو للسيدة سورا – المشهورة بالتجول في طوكيو التي أنشأها الذكاء الاصطناعي مباشرة بعد عاصفة مطيرة – وهي تغني أغنية “لا تبدأ الآن” لدوا ليبا وتبدو غير تقليدية معها.

تكشف العروض التوضيحية أيضًا كيف يمكن لـ EMO، على سبيل المثال لا الحصر، أن تجعل أودري هيبورن تتحدث بصوت من مقطع فيديو موسيقي سريع الانتشار لـ ريفرديلتتحدث ليلي راينهارت عن مدى حبها للبكاء. في هذا المقطع، يحافظ رأس هيبورن على وضع مستقيم يشبه وضعية الجندي، ولكن وجهها بالكامل – وليس فمها فقط – يبدو أنه يعبر عن الكلمات الموجودة في الصوت.

على عكس هذه النسخة الغريبة من هيبورن، فإن راينهارت في المقطع الأصلي تحرك رأسها كثيرًا، كما أنها تبعث بمشاعر مختلفة تمامًا، لذلك لا يبدو أن EMO عبارة عن نوع من تبادل الوجوه بالذكاء الاصطناعي الذي انتشر في منتصف العقد الأول من القرن الحادي والعشرين وأدى إلى صعود التزييف العميق في عام 2017.

في السنوات الأخيرة، ظهرت تطبيقات مصممة لإنشاء رسوم متحركة للوجه من الصوت، لكنها لم تكن ملهمة للغاية. على سبيل المثال، تروج حزمة برامج NVIDIA Omniverse لتطبيق ذو امتداد الصوت لمواجهة إطار الرسوم المتحركة تسمى “Audio2Face” – والتي تعتمد على الرسوم المتحركة ثلاثية الأبعاد لإصداراتها بدلاً من مجرد إنشاء فيديو واقعي مثل EMO.

على الرغم من أن عمر Audio2Face يبلغ عامين فقط، إلا أن العرض التوضيحي لـ EMO يجعله يبدو وكأنه قطعة أثرية. وفي مقطع فيديو يُزعم أنه يُظهر قدرتها على تقليد العواطف أثناء التحدث، يبدو الوجه ثلاثي الأبعاد الذي تصوره أشبه بدمية في قناع تعبيرات الوجه، بينما تظهر شخصيات EMO وكأنها تعبر عن الفروق الدقيقة في تعقيدات العواطف التي تظهر في كل مقطع صوتي. .

تجدر الإشارة في هذه المرحلة إلى أننا، كما هو الحال مع Sora، نقوم بتقييم إطار عمل الذكاء الاصطناعي هذا بناءً على العرض التوضيحي الذي قدمه منشئوه، وليس لدينا في الواقع نسخة قابلة للاستخدام يمكننا اختبارها. لذلك من الصعب أن نتخيل أنه خارج الصندوق، يمكن لهذا البرنامج إنتاج مثل هذه العروض الصوتية للوجه البشري المقنعة دون تجربة وأخطاء كبيرة أو تعديلات خاصة بالمهمة.

معظم الشخصيات في العروض التوضيحية لا تعبر عن كلام يثير مشاعر شديدة – الوجوه الملتوية بالغضب أو التي تنفجر بالبكاء، على سبيل المثال – لذلك يبقى أن نرى كيف ستتعامل EMO مع المشاعر القوية باستخدام الصوت وحده كدليل. . بالإضافة إلى ذلك، على الرغم من صنعه في الصين، إلا أنه يوصف بأنه متعدد اللغات، قادر على التقاط صوتيات اللغتين الإنجليزية والكورية وجعل الوجوه تشكل الصوتيات المناسبة بدقة لائقة، على الرغم من أنها بعيدة عن الكمال. بمعنى آخر، سيكون من الجيد أن ترى ما سيحدث إذا قمت بوضع صوت شخص غاضب جدًا يتحدث لغة أقل شهرة في EMO لمعرفة مدى نجاحه.

ومن المثير للإعجاب أيضًا الزخارف الصغيرة بين الجمل – زم الشفاه أو النظر إلى الأسفل – التي تضفي العاطفة على فترات التوقف بدلاً من مجرد اللحظات التي تتحرك فيها الشفاه. هذه أمثلة لكيفية تحرك الوجه البشري الحقيقي، ومن المغري أن نرى EMO ينفذها بشكل جيد، حتى في مثل هذا العرض التجريبي المحدود.

وفقًا للورقة البحثية، يعتمد نموذج EMO على مجموعة كبيرة من بيانات الصوت والفيديو (مرة أخرى: من اين؟) لمنحه المعايير اللازمة لبث المشاعر بهذه الطريقة الواقعية. ومن الواضح أن منهجها القائم على الانتشار لا يحتوي على خطوة وسيطة تقوم فيها النماذج ثلاثية الأبعاد ببعض العمل. أ آلية الاهتمام المرجعي ومنفصلة آلية الانتباه الصوتي يتم دمجها بواسطة نموذج EMO لتوفير شخصيات متحركة تتطابق رسوم وجهها المتحركة مع ما يظهر في الصوت مع الحفاظ على وفائها لخصائص الوجه للصورة الأساسية المقدمة.

إنها مجموعة رائعة من العروض التوضيحية، وبعد مشاهدتها، من المستحيل عدم تخيل ما هو التالي. ولكن إذا كنت تجني أموالك كممثل، فحاول ألا تتخيل الكثير، لأن الأشياء يصبح الأمر مزعجًا جدًا بسرعة كبيرة..

Source link