Google Veo، وهو تقدم كبير في مجال الفيديو المولد بالذكاء الاصطناعي، يظهر لأول مرة في Google I/O 2024
جوجل تطلق في OpenAI سورا مع Veo، وهو نموذج AI قادر على إنشاء مقاطع فيديو بدقة 1080 بكسل مدتها دقيقة واحدة تقريبًا من رسالة نصية.
كشف النقاب يوم الثلاثاء في مؤتمر مطوري Google I/O 2024يمكن لـ Veo التقاط أنماط مرئية وسينمائية مختلفة، بما في ذلك صور المناظر الطبيعية والفواصل الزمنية، وإجراء تعديلات وتعديلات على اللقطات التي تم إنشاؤها بالفعل.
وقال ديميس هاسابيس، رئيس مختبر أبحاث وتطوير الذكاء الاصطناعي التابع لشركة Google DeepMind، للصحفيين خلال مناقشة مائدة مستديرة افتراضية: “نحن نستكشف ميزات مثل القصص المصورة ونولد مشاهد أطول لنرى ما يمكن أن يفعله Veo”. “لقد حققنا تقدمًا مذهلاً في الفيديو.”
يعتمد Veo على أعمال Google التجارية المبكرة في مجال إنشاء الفيديو، تمت معاينته في أبريل، والتي استفادت من عائلة Imagen 2 الخاصة بالشركة من نماذج توليد الصور لإنشاء مقاطع فيديو متكررة.
ولكن على عكس الأداة المستندة إلى Imagen 2، والتي يمكنها إنشاء مقاطع فيديو منخفضة الدقة مدتها بضع ثوانٍ فقط، يبدو أن Veo قادرة على المنافسة مع نماذج إنشاء الفيديو الرائدة اليوم – ليس Sora فحسب، بل أيضًا نماذج من شركات ناشئة مثل بيكا, مسار و مختبرات غير موقرة.
خلال جلسة إحاطة، أظهر لي دوجلاس إيك، الذي يقود الجهود البحثية في DeepMind حول الوسائط التوليدية، بعض الأمثلة المختارة بعناية لما يمكن أن تفعله Veo. وقال إن إحدى هذه الصور على وجه الخصوص – وهي صورة جوية لشاطئ مزدحم – أظهرت نقاط قوة Veo مقارنة بنماذج الفيديو المنافسة.
وقال: “لقد ثبت أن تفاصيل جميع السباحين على الشاطئ صعبة بالنسبة لنماذج توليد الصور والفيديو – مع وجود العديد من الشخصيات المتحركة”. “إذا نظرت عن كثب، فإن ركوب الأمواج جيد جدًا. وأود أن أقول إن معنى كلمة “حيوية” يتم التقاطه من قبل جميع الناس – الواجهة البحرية الصاخبة المليئة بحمامات الشمس.
تم تدريب Veo على العديد من الصور. هذه هي الطريقة بشكل عام مع نماذج الذكاء الاصطناعي التوليدية: مثال تلو الآخر لشكل معين من البيانات، تكتشف النماذج أنماطًا في البيانات تسمح لها بإنشاء بيانات جديدة – مقاطع الفيديو، في حالة Veo.
من أين تأتي الصور لتدريب Veo؟ لم يذكر إيك على وجه التحديد، لكنه اعترف بأن بعضها قد يأتي من موقع YouTube الخاص بشركة Google.
وقال: “قد يتم تدريب نماذج Google على محتوى معين على YouTube، ولكن دائمًا وفقًا لاتفاقيتنا مع منشئي المحتوى على YouTube”.
يمكن للجزء “الاتفاق”. من الناحية الفنية كن صادقا. ولكن من الصحيح أيضًا أنه نظرًا لتأثيرات شبكة YouTube، ليس أمام منشئي المحتوى خيار سوى الالتزام بقواعد Google إذا كانوا يأملون في الوصول إلى أكبر عدد ممكن من الجمهور.
كشفت مقالة نشرتها صحيفة نيويورك تايمز في أبريل عن ذلك قامت Google بتوسيع شروط الخدمة الخاصة بها العام الماضي، جزئيًا للسماح للشركة بالاستفادة من المزيد من البيانات لتدريب نماذج الذكاء الاصطناعي الخاصة بها. وبموجب شروط الخدمة القديمة، لم يكن من الواضح ما إذا كان بإمكان جوجل استخدام بيانات يوتيوب لبناء منتجات خارج منصة الفيديو. لكن هذا ليس هو الحال بالنسبة للظروف الجديدة، التي تخفف القيود إلى حد كبير.
جوجل ليست شركة التكنولوجيا العملاقة الوحيدة التي تستفيد من كميات كبيرة من بيانات المستخدم لتدريب النماذج داخليًا. (يرى: ميتا.) ولكن ما سيخيب أمل بعض المبدعين بالتأكيد هو إصرار إيك على أن جوجل تضع “المعيار الذهبي” هنا، من حيث الأخلاق.
وقال: “سيتم إيجاد حل لهذا التحدي (بيانات التدريب) من خلال جمع جميع أصحاب المصلحة معًا لتحديد الخطوات التالية”. “إلى أن نتخذ هذه الخطوات مع أصحاب المصلحة – نحن نتحدث عن صناعة السينما، وصناعة الموسيقى، والفنانين أنفسهم – لن نتحرك بسرعة.”
ومع ذلك، فقد أتاحت Google بالفعل تطبيق Veo لبعض المبدعين، بما في ذلك دونالد جلوفر (AKA Childish Gambino) ووكالته الإبداعية Gilga. (مثل OpenAI مع Soraتضع Google Veo كأداة للمبدعين.)
وأشار إيك إلى أن Google توفر أدوات لمشرفي المواقع لمنع روبوتات الشركة من استخراج بيانات التدريب من مواقعهم على الويب. لكن الإعدادات لا تنطبق على YouTube. وجوجل، على عكس قليلة له منافسيهلا تقدم آلية للمبدعين لإزالة أعمالهم من مجموعات بيانات التدريب الخاصة بها بعد استخلاصها.
لقد سألت أيضًا Eck عن القلس، والذي يشير في سياق الذكاء الاصطناعي التوليدي إلى الوقت الذي يقوم فيه النموذج بإنشاء نسخة طبق الأصل من مثال تدريبي. أدوات مثل Midjourney سيئة الصور الثابتة الدقيقة قدمت أفلام مثل “Dune” و”Avengers” و”Star Wars” طابعًا زمنيًا، مما أدى إلى إنشاء حقل ألغام قانوني محتمل للمستخدمين. يقال إن OpenAI ذهبت إلى حد حظر العلامات التجارية وأسماء المبدعين لتشجيع Sora على محاولة التحايل على تحديات حقوق الطبع والنشر.
إذن ما هي الخطوات التي اتخذتها Google للتخفيف من مخاطر القلس باستخدام Veo؟ لم يكن لدى إيك أي رد، فقط قال إن فريق البحث لديه مرشحات للمحتوى العنيف والصريح (لذلك لا الإباحية) ويستخدم DeepMind تقنية سينث آي دي لتمييز مقاطع فيديو Veo على أنها تم إنشاؤها بواسطة الذكاء الاصطناعي.
“سوف نسعى جاهدين – من أجل شيء مهم مثل نموذج Veo – لإصداره تدريجيًا إلى مجموعة صغيرة من أصحاب المصلحة الذين يمكننا العمل معهم بشكل وثيق للغاية لفهم الآثار المترتبة على النموذج، وبعد ذلك فقط نشره. وقال “إلى مجموعة أوسع”.
كان لدى Eck المزيد لمشاركته حول التفاصيل الفنية للنموذج.
وصف Eck Veo بأنه “يمكن التحكم فيه تمامًا” بمعنى أن النموذج يفهم حركات الكاميرا والمؤثرات المرئية من المطالبات بشكل جيد (فكر في واصفات مثل “pan” و”zoom” و”explosion”)). ومثل سورا، تتمتع فيو بإتقان إلى حد ما في الفيزياء – أشياء مثل ديناميكيات السوائل والجاذبية – مما يساهم في واقعية مقاطع الفيديو التي تنشئها.
يدعم Veo أيضًا التحرير المخفي للتغييرات التي يتم إجراؤها على مناطق معينة من الفيديو ويمكنه إنشاء مقاطع فيديو من صورة ثابتة، على غرار النماذج التوليدية مثل فيديو مستقر من Stability AI. ولعل الأمر الأكثر إثارة للاهتمام هو أنه في ضوء سلسلة من المطالبات التي تحكي معًا قصة، يستطيع Veo إنشاء مقاطع فيديو أطول – مقاطع فيديو أطول من دقيقة.
هذا لا يعني أن Veo مثالي. بما يعكس القيود المفروضة على الذكاء الاصطناعي التوليدي اليوم، تختفي الكائنات الموجودة في مقاطع فيديو Veo وتعاود الظهور دون الكثير من الشرح أو الاتساق. وغالبًا ما يخطئ Veo في فيزيائيته – على سبيل المثال، ستنعكس السيارات بطرق مستحيلة وغير قابلة للتفسير عند سقوط القبعة.
ولهذا السبب سيبقى Veo على قائمة الانتظار مختبرات جوجل، بوابة الشركة للتكنولوجيا التجريبية، في المستقبل المنظور، ضمن واجهة جديدة لإنشاء الفيديو وتحريره باستخدام الذكاء الاصطناعي تسمى VideoFX. ومع تحسنه، تهدف Google إلى جلب بعض إمكانيات النموذج إلى المستوى المطلوب يوتيوب افلام قصيرة وغيرها من المنتجات.
قال إيك: “هذا عمل قيد التقدم، وهو تجريبي للغاية… لا يزال هناك الكثير مما يجب القيام به أكثر مما تم إنجازه هنا”. “لكنني أعتقد أنها نوع من المادة الخام للقيام بشيء عظيم حقًا في الفيلم.”
نحن نطلق رسالة إخبارية عن الذكاء الاصطناعي! يسجل هنا لبدء استلامها في صناديق البريد الوارد الخاصة بك في 5 يونيو.
Source link