يوفر الجيل الثالث من الفيديو AI من Runway، Gen-3، عناصر تحكم محسنة

Maywiltech17/06/2024

0 18 5 دقائق

يشتعل السباق للحصول على مقاطع فيديو عالية الجودة تم إنشاؤها بواسطة الذكاء الاصطناعي.

الإثنين، مسارشركة تعمل على تطوير أدوات ذكاء اصطناعي إبداعية لمنشئي محتوى الأفلام والصور، مكشوف الجيل 3 ألفا. يقوم أحدث نموذج للذكاء الاصطناعي للشركة بإنشاء مقاطع فيديو من الأوصاف النصية والصور الثابتة. تدعي Runway أن النموذج يقدم تحسينًا “كبيرًا” في سرعة التوليد والدقة مقارنةً بنموذج الفيديو الرئيسي السابق لـ Runway. الجيل 2بالإضافة إلى عناصر التحكم الدقيقة في بنية وأسلوب وحركة مقاطع الفيديو التي ينشئها.

سيكون الجيل الثالث متاحًا في الأيام المقبلة لمشتركي Runway، بما في ذلك عملاء المؤسسات والشركات المشاركة في برنامج الشركاء الإبداعي الخاص بـ Runway.

“يتفوق Gen-3 Alpha في توليد شخصيات بشرية معبرة مع مجموعة واسعة من الإجراءات والإيماءات والعواطف” ، كما كتب Runway. في رسالة على مدونته. “لقد تم تصميمه لتفسير مجموعة واسعة من الأساليب والمصطلحات السينمائية (وتمكين) التحولات الخيالية والتأطير الدقيق لعناصر المشهد.”

Gen-3 Alpha له حدوده، ولعل أبرزها هو أن إطاراته لا تتجاوز 10 ثواني. ومع ذلك، يعد Anastasis Germanidis، المؤسس المشارك لـ Runway، بأن Gen-3 هو النموذج الأول – والأصغر – من بين العديد من نماذج توليد الفيديو القادمة في عائلة من نماذج الجيل التالي المدربة على البنية التحتية المحسنة.

وقال جيرمانيديس لـ TechCrunch هذا الصباح في مقابلة: “يمكن للنموذج أن يواجه تفاعلات معقدة بين الشخصيات والأشياء، ولا تتبع الأجيال دائمًا قوانين الفيزياء بدقة”. “سيدعم هذا النشر الأولي تصميمات عالية الدقة مدتها 5 و10 ثوانٍ، مع أوقات إنشاء أسرع بكثير من الجيل الثاني. ويستغرق إنشاء مقطع مدته 5 ثوانٍ 45 ثانية، ويستغرق إنشاء مقطع مدته 10 ثوانٍ 90 ثانية.

تم تدريب Gen-3 Alpha، مثل جميع نماذج إنشاء الفيديو، على عدد كبير من أمثلة مقاطع الفيديو – والصور – حتى يتمكن من “تعلم” النماذج من تلك الأمثلة لإنشاء مقاطع جديدة. من أين تأتي بيانات التدريب؟ المدرج لن يقول ذلك. يقدم عدد قليل من بائعي الذكاء الاصطناعي الإبداعي مثل هذه الرؤى هذه الأيام، ويرجع ذلك جزئيًا إلى أنهم ينظرون إلى بيانات التدريب على أنها ميزة تنافسية، وبالتالي يحتفظون بها والرؤى ذات الصلة بالقرب من صدورهم.

وقال جيرمانيديس: “لدينا فريق بحث داخلي يشرف على كل تدريباتنا ونستخدم مجموعات بيانات داخلية مختارة لتدريب نماذجنا”. لقد تركها هناك.

عينة من طراز Runway’s Gen-3. لاحظ أن التمويه والدقة المنخفضة يأتيان من أداة تحويل الفيديو إلى GIF التي تستخدمها TechCrunch، وليس Gen-3.

اعتمادات الصورة: مسار

تعد تفاصيل بيانات التدريب أيضًا مصدرًا محتملاً للدعاوى القضائية المتعلقة بالملكية الفكرية إذا تم تدريب البائع على البيانات العامة، بما في ذلك البيانات المحمية بحقوق الطبع والنشر من الويب – وبالتالي حافز آخر للكشف عن الكثير. عديد قضية انتقل إلى المحاكم، ورفض البائعين الدفاع عن بيانات التدريب ضد الاستخدام العادلبحجة أن أدوات الذكاء الاصطناعي التوليدية تعيد إنتاج أنماط الفنانين دون إذنهم وتسمح للمستخدمين بإنشاء أعمال جديدة تشبه أعمال الفنانين الأصلية والتي لا يتلقى الفنانون أي مقابل مقابلها.

تناولت شركة Runway قضية حقوق الطبع والنشر إلى حد ما، قائلة إنها تشاورت مع الفنانين لتطوير التصميم. (أي الفنانين؟ غير واضح.) وهذا يعكس ما هو جرمانيديس قال لي خلال محادثة جانبية في مؤتمر TechCrunch’s 2023 Disrupt:

وقال: “نحن نعمل بشكل وثيق مع الفنانين لتحديد أفضل الطرق لحل هذه المشكلة”. “نحن نستكشف شراكات البيانات المختلفة حتى نتمكن من الاستمرار في النمو … وبناء الجيل القادم من النماذج.”

وتقول Runway أيضًا إنها تخطط لإصدار Gen-3 مع مجموعة جديدة من الضمانات، بما في ذلك نظام الإشراف لمنع محاولات إنشاء مقاطع فيديو من الصور والمحتوى المحمي بحقوق الطبع والنشر التي لا تتوافق مع شروط خدمة Runway. هناك أيضًا نظام مصدر – متوافق مع معيار C2PA، مدعوم من Microsoft وAdobe وOpenAI وغيرها – قيد العمل أيضًا لتحديد أن مقاطع الفيديو تنتمي إلى الجيل الثالث.

قال جيرمانيديس: “يستخدم نظامنا الداخلي المحسّن للإشراف المرئي والنصي المراقبة التلقائية لتصفية المحتوى غير المناسب أو الضار”. “تتحقق مصادقة C2PA من مصدر وصحة الوسائط التي تم إنشاؤها باستخدام جميع طرز Gen-3. مع زيادة قدرات النماذج والقدرة على إنشاء محتوى عالي الدقة، سنستمر في الاستثمار بشكل كبير في جهودنا المتعلقة بالمواءمة والأمن.

مسار الجيل الثالث — **اعتمادات الصورة:** مسار

وكشفت Runway أيضًا أنها دخلت في شراكة وتعاونت مع “مؤسسات ترفيهية وإعلامية رائدة” لإنشاء إصدارات مخصصة من الجيل الثالث تسمح بمزيد من “التحكم الأسلوبي” والشخصيات المتسقة، والتي تستهدف “متطلبات فنية وسردية محددة”. وتضيف الشركة: “وهذا يعني أن الشخصيات والخلفيات والأصول التي تم إنشاؤها يمكن أن تحافظ على مظهر وسلوك ثابت في المشاهد المختلفة. »

إحدى المشكلات الرئيسية التي لم يتم حلها فيما يتعلق بنماذج إنشاء الفيديو هي التحكم، أي الحصول على نموذج لإنشاء فيديو متسق يتماشى مع النوايا الفنية للمنشئ. مثل زميلي كتب ديفين كولديوي مؤخرًا، تتطلب الأسئلة البسيطة في السينما التقليدية، مثل اختيار لون في ملابس الشخصية، حلولاً بديلة باستخدام نماذج توليدية، لأن كل لقطة يتم إنشاؤها بشكل مستقل عن اللقطات الأخرى. وفي بعض الأحيان، لا تكون الحلول البديلة كافية، مما يترك قدرًا كبيرًا من العمل اليدوي للمحررين.

جمعت Runway أكثر من 236.5 مليون دولار من المستثمرين بما في ذلك Google (حيث تمتلك اعتمادات الحوسبة السحابية) وNvidia، بالإضافة إلى شركات رأس المال الاستثماري بما في ذلك Amplify Partners وFelicis وCoatue. لقد انضمت الشركة بشكل وثيق إلى الصناعة الإبداعية مع زيادة استثماراتها في تكنولوجيا الذكاء الاصطناعي التوليدية. تدير Runway استوديوهات Runway، وهو قسم ترفيهي يعمل كشريك إنتاج لعملاء الشركات، ويستضيف مهرجان AI Film Festival، وهو أحد الأحداث الرئيسية المخصصة لعرض الأفلام التي تم إنتاجها بالكامل أو جزئيًا بواسطة الذكاء الاصطناعي.

لكن المنافسة تزداد شراسة وضراوة.

شركة Luma الناشئة للذكاء الاصطناعي في الأسبوع الماضي إعلان Dream Machine، وهو مولد فيديو انتشر على نطاق واسع لقدرته على تحريك الميمات. وقبل بضعة أشهر فقط، أدوبي كشف أنها تطور نموذج إنشاء الفيديو الخاص بها استنادًا إلى محتوى مكتبة وسائط Adobe Stock الخاصة بها.

وفي أماكن أخرى، هناك مشغلون حاليون مثل OpenAI سورا، والتي لا تزال مغلقة بإحكام، ولكن شركة OpenAI زرعتها في وكالات التسويق والمخرجين المستقلين وهوليوود. (كانت ميرا موراتي، مديرة التكنولوجيا في OpenAI، حاضرة في مهرجان كان السينمائي لعام 2024.) عرض مهرجان تريبيكا لهذا العام، والذي لديه أيضًا شراكة مع Runway لتنظيم الأفلام التي تم إنتاجها باستخدام أدوات الذكاء الاصطناعي، أفلامًا قصيرة تم إنتاجها بالتعاون مع Sora بواسطة مخرجين استفادوا من الوصول المبكر.

قامت Google أيضًا بتطبيق نموذج إنشاء الصور الخاص بها، فيوفي أيدي منشئي محتوى مختارين، بما في ذلك دونالد جلوفر (AKA Childish Gambino) ووكالته الإبداعية Gilga، التي تعمل على دمج Veo في منتجات مثل YouTube Shorts.

بغض النظر عن أوجه التعاون المختلفة، هناك شيء واحد أصبح واضحًا: أدوات الفيديو المولدة بالذكاء الاصطناعي تهدد بقلب صناعة السينما والتلفزيون كما نعرفها.

المخرج تايلر بيري قال مؤخرا أنه قام بتعليق التوسعة المخطط لها البالغة 800 مليون دولار لاستوديو الإنتاج الخاص به بعد رؤية ما يمكن أن يفعله سورا. جو روسو، مخرج أفلام مارفل مثل “Avengers: Endgame”، وتوقع أنه في غضون عام، سيكون الذكاء الاصطناعي قادرًا على إنشاء فيلم كامل.

أ 2024 يذاكر وجدت دراسة بتكليف من Animation Guild، وهو اتحاد يمثل رسامي الرسوم المتحركة ورسامي الكاريكاتير في هوليوود، أن 75% من شركات إنتاج الأفلام التي اعتمدت الذكاء الاصطناعي خفضت الوظائف أو دمجتها أو ألغتها بعد دمج التكنولوجيا. وتقدر الدراسة أيضًا أنه بحلول عام 2026، سيتم تعطيل أكثر من 100 ألف وظيفة ترفيهية في الولايات المتحدة بسبب الذكاء الاصطناعي التوليدي.

سوف يتطلب الأمر إجراءات حماية قوية للغاية للعمال لضمان أن أدوات إنشاء الفيديو لا تتبع خطى تقنيات الذكاء الاصطناعي التوليدية الأخرى وتؤدي إلى انخفاضات حادة في الطلب على العمل الإبداعي.

Source link

Maywiltech17/06/2024

0 18 5 دقائق