الصورة الرمزية لـ Nvidia AI كانت موجودة على شاشة جهاز الكمبيوتر الخاص بي وجعلتني أشعر بالغرابة
كشفت Nvidia عن نموذج أولي للصورة الرمزية للذكاء الاصطناعي في CES 2025 والذي يوجد على سطح مكتب جهاز الكمبيوتر الخاص بك. مساعد الذكاء الاصطناعي، R2Xتبدو وكأنها إحدى شخصيات ألعاب الفيديو ويمكن أن تساعدك في التنقل بين التطبيقات الموجودة على جهاز الكمبيوتر الخاص بك.
يتم عرض الصورة الرمزية لـ R2X وتحريكها باستخدام نماذج الذكاء الاصطناعي من Nvidia، ويمكن للمستخدمين تشغيل الصورة الرمزية على شهادات LLM الشهيرة التي يختارونها، مثل OpenAI’s GPT-4o أو xAI’s Grok. يمكن للمستخدمين التحدث مع R2X عبر الرسائل النصية والصوتية، أو تحميل الملفات إليه للمعالجة، أو حتى السماح لمساعد الذكاء الاصطناعي برؤية ما يحدث مباشرة على شاشتك أو الكاميرا.
تعمل شركات التكنولوجيا على إنشاء العديد من الصور الرمزية للذكاء الاصطناعي مؤخرًا، ليس فقط في ألعاب الفيديو، ولكن أيضًا للشركات والأفراد. العروض التجريبية الأولى غريبة، لكن البعض يعتقد أن هذه الصور الرمزية تشكل واجهة مستخدم واعدة لمساعدي الذكاء الاصطناعي. مع R2X، تحاول Nvidia الجمع بين قدرات ألعاب الفيديو التوليدية مع LLMs المتطورة لإنشاء مساعد الذكاء الاصطناعي الذي يشبه الإنسان.
تخطط الشركة لفتح مصدر هذه الصور الرمزية في النصف الأول من عام 2025. وترى Nvidia أن هذا بمثابة واجهة مستخدم جديدة يمكن للمطورين البناء بها، مما يسمح للمستخدمين بتوصيل منتجات برامج الذكاء الاصطناعي المفضلة لديهم أو حتى تشغيل هذه الصور الرمزية محليًا.
قليلا مثل ميزة تذكير مايكروسوفت (الذي كان تأخرت بسبب مخاوف الخصوصية)، يستطيع R2X التقاط لقطات شاشة ثابتة لشاشتك وتشغيلها من خلال نموذج الذكاء الاصطناعي للمعالجة، على الرغم من تعطيل هذه الميزة افتراضيًا. عند تمكينه، يمكنه تقديم معلومات حول التطبيقات التي تعمل على جهاز الكمبيوتر الخاص بك، وعلى سبيل المثال، مساعدتك في إكمال مهمة ترميز معقدة.
لا يزال R2X نموذجًا أوليًا، وحتى Nvidia تعترف بأنه لا تزال هناك بعض الأخطاء التي يجب حلها. في العروض التوضيحية مع TechCrunch، كان لدى الصورة الرمزية لـ Nvidia شعور غريب تجاهها – حيث كان وجهه أحيانًا يعلق في أوضاع غريبة وكانت لهجته تبدو عدوانية بعض الشيء في بعض الأحيان. وبشكل عام، أجد أنه من الغريب بعض الشيء أن يكون لدي صورة رمزية بشرية تراقبني أثناء عملي.
يقدم R2X عمومًا تعليمات مفيدة ويصور بدقة ما كان موجودًا على الشاشة. ولكن في مرحلة ما، أعطتنا الصورة الرمزية تعليمات غير صحيحة، وبعد ذلك لم تتمكن الصورة الرمزية من رؤية الشاشة على الإطلاق. قد تكون هذه مشكلة في نموذج الذكاء الاصطناعي الأساسي (في هذه الحالة، GPT-4o)، لكن المثال يوضح القيود المفروضة على هذه التقنية الأولى.
في عرض توضيحي، أظهر مدير منتج Nvidia كيف يمكن لـ R2X عرض التطبيقات على شاشتك ومساعدة المستخدمين. على وجه التحديد، ساعدنا R2X في استخدام ميزة التعبئة التوليدية في Adobe Photoshop. الصورة التي اخترناها كانت للرئيس التنفيذي لشركة Nvidia Jensen Huang وهو يقف في مطعم آسيوي مع اثنين من موظفي المطعم. أصيبت الصورة الرمزية لـ Nvidia بالهلوسة وأعطت تعليمات خاطئة حول مكان العثور على ميزة التعبئة التوليدية في Photoshop. ثم فقدت القدرة على عرض الشاشة، ولكن بعد تغيير نموذج الذكاء الاصطناعي الذي استخدمناه لـ Grok من xAI، استعادت الصورة الرمزية قدراتها على عرض الشاشة.
وفي عرض توضيحي آخر، تمكن R2X من استيعاب ملف PDF من سطح المكتب ثم الإجابة على الأسئلة المتعلقة به. يتم تشغيل هذه العملية من خلال ميزة الجيل المعزز للاسترجاع المحلي (RAG)، والتي تمنح هذه الصور الرمزية للذكاء الاصطناعي القدرة على استخراج المعلومات من مستند ومعالجتها باستخدام LLM الأساسي.
تستخدم Nvidia بعض نماذج الذكاء الاصطناعي من قسم ألعاب الفيديو الخاص بها لتحسين مظهر هذه الصور الرمزية. لإنشاء الصور الرمزية، تستخدم Nvidia خوارزمية الوجوه العصبية RTX الخاصة بها. لأتمتة حركات الوجه والشفاه واللسان، تستخدم Nvidia نموذجًا جديدًا يسمى Audio2Face™-3D. يبدو أن هذا النموذج يتعطل في بعض الأحيان، ويحمل وجه الصورة الرمزية في أوضاع حرجة.
تدعي الشركة أيضًا أن هذه الصور الرمزية R2X ستكون قادرة على الانضمام إلى اجتماعات Microsoft Teams، وتعمل كمساعد شخصي.
يقول أحد مديري منتجات Nvidia إن الشركة تعمل على منح هذه الصور الرمزية للذكاء الاصطناعي إمكانات الوكيل أيضًا، بحيث يمكن لـ R2X العمل يومًا ما على سطح المكتب. لا تزال هذه القدرات تبدو بعيدة المنال ومن المرجح أن تتطلب شراكات مع ناشري البرامج مثل Microsoft وAdobe، الذين يحاولون هم أنفسهم تطوير أنظمة وكيل مماثلة.
ليس من الواضح على الفور كيف تقوم Nvidia بتوليد الأصوات في هذه المنتجات. يبدو صوت R2X عند استخدام GPT-4o فريدًا مقارنة بجميع أصوات ChatGPT المعدة مسبقًا، في حين أن برنامج Grok chatbot الخاص بـ xAI لا يحتوي على وضع صوتي بعد.
تقدم TechCrunch رسالة إخبارية تركز على الذكاء الاصطناعي! سجل هنا لتلقيها في صندوق الوارد الخاص بك كل يوم أربعاء.
Source link