تقنية

تعمل Google على إنشاء مقاطع صوتية وحوارات لمقاطع الفيديو


يعلم الجميع أن الصوت عنصر أساسي في معظم الأفلام ومقاطع الفيديو. ففي نهاية المطاف، حتى عندما كانت الأفلام صامتة، كان هناك دائمًا مرافق موسيقي يسمح للجمهور بمعرفة ما يشعرون به.

ويظل هذا القانون الطبيعي كما هو بالنسبة للجيل الجديد من مقاطع الفيديو المولدة بتقنية الذكاء الاصطناعي، والتي تظهر صامتة بشكل غريب. وهذا هو السبب جزئيًا وراء عمل Google على تقنية “تحويل الفيديو إلى الصوت” (V2A) التي “تجعل توليد الصوت والصورة المتزامن ممكنًا”. يوم الاثنين، مختبر الذكاء الاصطناعي التابع لشركة جوجل، DeepMind، التقدم المشترك على إنشاء مثل هذا الصوت، بما في ذلك الموسيقى التصويرية والحوار الذي يتطابق تلقائيًا مع مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

عملت Google جاهدة على تطوير تقنية الذكاء الاصطناعي التوليدي متعدد الوسائط للتنافس مع منافسيها. لدى OpenAI مولد فيديو يعمل بالذكاء الاصطناعي سورا (لم يتم الإعلان عنها بعد) و جي بي تي-4o، مما يؤدي إلى إنشاء استجابات صوتية بتقنية الذكاء الاصطناعي. الشركات مثل ميتا و سونو لقد استكشفنا الصوت والموسيقى التي تم إنشاؤها بواسطة الذكاء الاصطناعي، ولكن الجمع بين الصوت والفيديو جديد نسبيًا. أحد عشر مختبرًا تمتلك شركة DeepMind أداة مشابهة تعمل على مطابقة المطالبات الصوتية مع المطالبات النصية، لكن DeepMind تقول إن V2A مختلف لأنه لا يتطلب مطالبات نصية.

سرعة الضوء قابلة للسحق

يمكن دمج V2A مع أدوات فيديو الذكاء الاصطناعي مثل Google Veo أو مع اللقطات المخزنة والأفلام الصامتة الموجودة. يمكن استخدام هذا للموسيقى التصويرية والمؤثرات الصوتية وحتى الحوار. إنه يعمل باستخدام نموذج دفق تم تدريبه باستخدام المدخلات المرئية ومطالبات اللغة الطبيعية وتعليقات الفيديو لتحسين الضوضاء العشوائية تدريجيًا إلى صوت يتوافق مع نغمة وسياق مقاطع الفيديو.

يقول Google DeepMind أن V2A يمكنه “فهم وحدات البكسل الأولية”، لذلك لا تحتاج فعليًا إلى مطالبة نصية لإنشاء الصوت، ولكنه يساعد في الدقة. يمكن أيضًا أن يُطلب من النموذج جعل نغمة الصوت إيجابية أو سلبية. إلى جانب هذا الإعلان، أصدرت DeepMind بعض مقاطع الفيديو التجريبية، بما في ذلك مقطع فيديو لممر مظلم ومخيف مصحوبًا بموسيقى رعب، وفيديو لراعي بقر وحيد عند غروب الشمس على نغمة هارمونيكا ناعمة و”شخصية متحركة تتحدث عن عشاءه”.

سيتضمن V2A العلامة المائية SynthID من Google كضمان ضد سوء الاستخدام، وتقول مدونة Deepmind إن الميزة قيد الاختبار حاليًا قبل طرحها للعامة.




Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى