OpenAI، تسير على خطى الشركات الناشئة مثل مسار ويحب عمالقة التكنولوجيا جوجل و ميتايبدأ في إنشاء الفيديو.
تم الكشف عن OpenAI اليوم سورا، نموذج الذكاء الاصطناعي التوليدي الذي يقوم بإنشاء الفيديو من النص. من خلال وصف مختصر أو تفصيلي أو صورة ثابتة، يمكن لـ Sora إنشاء مشاهد تشبه الأفلام بدقة 1080 بكسل مع شخصيات متعددة وأنواع مختلفة من الحركة وتفاصيل الخلفية، كما تدعي OpenAI.
يستطيع Sora أيضًا “توسيع” مقاطع الفيديو الموجودة، ويبذل قصارى جهده لملء التفاصيل المفقودة.
“يتمتع Sora بفهم عميق للغة، مما يسمح له بتفسير المطالبات بدقة وإنشاء أحرف مقنعة تعبر عن المشاعر النابضة بالحياة،” كتب OpenAI في منشور بالمدونة. “لا يفهم النموذج ما يطلبه المستخدم في الموجه فحسب، بل يفهم أيضًا كيفية وجود هذه الأشياء في العالم المادي.
الآن، هناك الكثير من الكلام المنمق في الصفحة التجريبية لـ OpenAI الخاصة بـ Sora – والبيان أعلاه مثال على ذلك. لكن العينات المختارة بعناية من النموذج لكى يفعل تبدو مثيرة للإعجاب، على الأقل بالمقارنة مع تقنيات تحويل النص إلى الفيديو الأخرى التي رأيناها.
بالنسبة للمبتدئين، يمكن لـ Sora إنشاء مقاطع فيديو بمجموعة من الأنماط (مثل الصور الواقعية والرسوم المتحركة والأسود والأبيض) لمدة تصل إلى دقيقة واحدة، وهي أطول بكثير من معظم قوالب تحويل النص إلى فيديو. وتحافظ مقاطع الفيديو هذه على اتساق معقول، بمعنى أنها لا تستسلم دائمًا لما أحب أن أسميه “غرابة الذكاء الاصطناعي”، مثل الأجسام التي تتحرك في اتجاهات مستحيلة فيزيائيًا.
قم بإلقاء نظرة على جولة المعرض الفني هذه، والتي تم إنشاؤها بواسطة Sora (تجاهل الحبوب – الضغط من أداة تحويل الفيديو إلى GIF):
أو هذه الرسوم المتحركة لزهرة تتفتح:
سأقول إن بعض مقاطع فيديو سورا التي تحتوي على موضوع بشري – روبوت يقف في مواجهة منظر المدينة، على سبيل المثال، أو شخص يسير في طريق ثلجي – تتمتع بجودة ألعاب الفيديو، ربما لأنها لا تحدث كثيرًا. خلفية. كما تمكنت غرابة الذكاء الاصطناعي من التسرب إلى العديد من المقاطع، مثل قيادة السيارات في اتجاه واحد، ثم الرجوع للخلف فجأة أو ذوبان الأذرع في غطاء اللحاف.
تدرك شركة OpenAI ــ على الرغم من كل صيغها المتفوقة ــ أن النموذج ليس مثاليا. هو يكتب :
“(سورا) قد يواجه صعوبة في محاكاة فيزياء مشهد معقد بدقة وقد لا يفهم حالات محددة من السبب والنتيجة. على سبيل المثال، قد يقوم شخص ما بقضم ملف تعريف الارتباط، ولكن بعد ذلك قد لا يكون هناك علامة عض على ملف تعريف الارتباط. قد يخلط النموذج أيضًا بين التفاصيل المكانية للموجه، مثل الخلط بين اليسار واليمين، وقد يواجه صعوبة في وصف الأحداث التي تتكشف بمرور الوقت بدقة، مثل اتباع مسار كاميرا محدد.
تقوم OpenAI بوضع Sora على أنه معاينة بحثية، وتكشف القليل عن البيانات المستخدمة لتدريب النموذج (أقل من 10000 ساعة تقريبًا من الفيديو “عالي الجودة”) وتمتنع عن جعل Sora متاحًا بشكل عام. الأساس المنطقي لها هو احتمال إساءة الاستخدام؛ يشير OpenAI بحق إلى أن الجهات الفاعلة السيئة يمكنها إساءة استخدام نموذج مثل Sora بطرق متعددة.
تقول OpenAI إنها تعمل مع الخبراء لفحص نموذج الثغرات وإنشاء أدوات لاكتشاف ما إذا كان Sora قد تم إنشاء مقطع فيديو أم لا. وتقول الشركة أيضًا إنها إذا اختارت دمج النموذج في منتج يواجه الجمهور، فسوف تضمن تضمين بيانات تعريف المصدر في النتائج الناتجة.
“سنقوم بإشراك صناع السياسات والمعلمين والفنانين في جميع أنحاء العالم لفهم مخاوفهم وتحديد حالات الاستخدام الإيجابي لهذه التكنولوجيا الجديدة”، كما كتب OpenAI. “على الرغم من الأبحاث والاختبارات المكثفة، لا يمكننا التنبؤ بجميع الطرق المفيدة التي سيستخدم بها الأشخاص التكنولوجيا لدينا، ولا جميع الطرق التي سيسيئون استخدامها بها. ولهذا السبب نعتقد أن التعرف على الاستخدام في العالم الحقيقي يعد جزءًا مهمًا من إنشاء ونشر أنظمة الذكاء الاصطناعي الآمنة بشكل متزايد بمرور الوقت.
Source link