Google Veo، وهو تقدم كبير في مجال الفيديو المولد بالذكاء الاصطناعي، يظهر لأول مرة في Google I/O 2024

Maywiltech14/05/2024

0 8 4 دقائق

جوجل تطلق في OpenAI سورا مع Veo، وهو نموذج AI قادر على إنشاء مقاطع فيديو بدقة 1080 بكسل مدتها دقيقة واحدة تقريبًا من رسالة نصية.

كشف النقاب يوم الثلاثاء في مؤتمر مطوري Google I/O 2024يمكن لـ Veo التقاط أنماط مرئية وسينمائية مختلفة، بما في ذلك صور المناظر الطبيعية والفواصل الزمنية، وإجراء تعديلات وتعديلات على اللقطات التي تم إنشاؤها بالفعل.

وقال ديميس هاسابيس، رئيس مختبر أبحاث وتطوير الذكاء الاصطناعي التابع لشركة Google DeepMind، للصحفيين خلال مناقشة مائدة مستديرة افتراضية: “نحن نستكشف ميزات مثل القصص المصورة ونولد مشاهد أطول لنرى ما يمكن أن يفعله Veo”. “لقد حققنا تقدمًا مذهلاً في الفيديو.”

اعتمادات الصورة: جوجل

يعتمد Veo على أعمال Google التجارية المبكرة في مجال إنشاء الفيديو، تمت معاينته في أبريل، والتي استفادت من عائلة Imagen 2 الخاصة بالشركة من نماذج توليد الصور لإنشاء مقاطع فيديو متكررة.

ولكن على عكس الأداة المستندة إلى Imagen 2، والتي يمكنها إنشاء مقاطع فيديو منخفضة الدقة مدتها بضع ثوانٍ فقط، يبدو أن Veo قادرة على المنافسة مع نماذج إنشاء الفيديو الرائدة اليوم – ليس Sora فحسب، بل أيضًا نماذج من شركات ناشئة مثل بيكا, مسار و مختبرات غير موقرة.

خلال جلسة إحاطة، أظهر لي دوجلاس إيك، الذي يقود الجهود البحثية في DeepMind حول الوسائط التوليدية، بعض الأمثلة المختارة بعناية لما يمكن أن تفعله Veo. وقال إن إحدى هذه الصور على وجه الخصوص – وهي صورة جوية لشاطئ مزدحم – أظهرت نقاط قوة Veo مقارنة بنماذج الفيديو المنافسة.

وقال: “لقد ثبت أن تفاصيل جميع السباحين على الشاطئ صعبة بالنسبة لنماذج توليد الصور والفيديو – مع وجود العديد من الشخصيات المتحركة”. “إذا نظرت عن كثب، فإن ركوب الأمواج جيد جدًا. وأود أن أقول إن معنى كلمة “حيوية” يتم التقاطه من قبل جميع الناس – الواجهة البحرية الصاخبة المليئة بحمامات الشمس.

تم تدريب Veo على العديد من الصور. هذه هي الطريقة بشكل عام مع نماذج الذكاء الاصطناعي التوليدية: مثال تلو الآخر لشكل معين من البيانات، تكتشف النماذج أنماطًا في البيانات تسمح لها بإنشاء بيانات جديدة – مقاطع الفيديو، في حالة Veo.

من أين تأتي الصور لتدريب Veo؟ لم يذكر إيك على وجه التحديد، لكنه اعترف بأن بعضها قد يأتي من موقع YouTube الخاص بشركة Google.

وقال: “قد يتم تدريب نماذج Google على محتوى معين على YouTube، ولكن دائمًا وفقًا لاتفاقيتنا مع منشئي المحتوى على YouTube”.

يمكن للجزء “الاتفاق”. من الناحية الفنية كن صادقا. ولكن من الصحيح أيضًا أنه نظرًا لتأثيرات شبكة YouTube، ليس أمام منشئي المحتوى خيار سوى الالتزام بقواعد Google إذا كانوا يأملون في الوصول إلى أكبر عدد ممكن من الجمهور.

كشفت مقالة نشرتها صحيفة نيويورك تايمز في أبريل عن ذلك قامت Google بتوسيع شروط الخدمة الخاصة بها العام الماضي، جزئيًا للسماح للشركة بالاستفادة من المزيد من البيانات لتدريب نماذج الذكاء الاصطناعي الخاصة بها. وبموجب شروط الخدمة القديمة، لم يكن من الواضح ما إذا كان بإمكان جوجل استخدام بيانات يوتيوب لبناء منتجات خارج منصة الفيديو. لكن هذا ليس هو الحال بالنسبة للظروف الجديدة، التي تخفف القيود إلى حد كبير.

جوجل ليست شركة التكنولوجيا العملاقة الوحيدة التي تستفيد من كميات كبيرة من بيانات المستخدم لتدريب النماذج داخليًا. (يرى: ميتا.) ولكن ما سيخيب أمل بعض المبدعين بالتأكيد هو إصرار إيك على أن جوجل تضع “المعيار الذهبي” هنا، من حيث الأخلاق.

وقال: “سيتم إيجاد حل لهذا التحدي (بيانات التدريب) من خلال جمع جميع أصحاب المصلحة معًا لتحديد الخطوات التالية”. “إلى أن نتخذ هذه الخطوات مع أصحاب المصلحة – نحن نتحدث عن صناعة السينما، وصناعة الموسيقى، والفنانين أنفسهم – لن نتحرك بسرعة.”

ومع ذلك، فقد أتاحت Google بالفعل تطبيق Veo لبعض المبدعين، بما في ذلك دونالد جلوفر (AKA Childish Gambino) ووكالته الإبداعية Gilga. (مثل OpenAI مع Soraتضع Google Veo كأداة للمبدعين.)