الى Google I/O في وقت سابق من هذا الأسبوعلم يكن من المستغرب أن يكون الذكاء الاصطناعي التوليدي نقطة محورية.
في الواقع، أشار ساندر بيتشاي، الرئيس التنفيذي لشركة Google، إلى أن كلمة “AI” قد قيلت 122 مرة، ومرتين أخريين من قبل بيتشاي مع انتهاء الحدث.
قامت شركة التكنولوجيا العملاقة بإدخال ميزات الذكاء الاصطناعي في جميع منتجاتها وخدماتها على ما يبدو، بما في ذلك بحثمساحة العمل و الأدوات الإبداعية لمقاطع الفيديو والصور والموسيقى. ولكن يمكن القول إن أهم الأخبار اليوم كانت المقارنة بين إعلانات Google وإعلانات OpenAI. قبل يوم واحد فقط من مؤتمر Google I/O، تم الكشف عن OpenAI جي بي تي-4oنموذج “متعدد الوسائط أصليًا” قادر على معالجة الصور والصوت في الوقت الفعلي، مما أدى إلى تكثيف المنافسة المزدهرة ظاهريًا.
كانت الأجواء في Google I/O مختلفة تمامًا عن حدث OpenAI. بدا جوجل غير مركّز، حيث قام بإلقاء عدد لا يحصى من معكرونة الذكاء الاصطناعي على الحائط في حدث استمر ما يقرب من ساعتين، مقارنة بـ OpenAI المركّز والمركّز. التكاليف عرض مدته 26 دقيقة.
لكن قدرات الذكاء الاصطناعي التي تقاسمتها الشركتان كانت متشابهة بشكل ملحوظ، حتى باستخدام نفس الخطاب (الذكاء الاصطناعي “قابل للمقاطعة”) ونفس الأمثلة (يمكن للذكاء الاصطناعي أن يساعد في الواجبات المنزلية). أدناه، قمنا بتجميع أوجه التشابه الثلاثة الكبيرة والغريبة في رسائل الشركتين.
1. محاكاة العديد من المدخلات الحسية الشبيهة بالإنسان في وقت واحد
صرحت كل من Google وOpenAI أن نماذج الذكاء الاصطناعي الخاصة بهما “متعددة الوسائط في الأصل”. في هذا السياق، تعني هذه القطعة من المصطلحات أن النماذج لديها فهم مرئي ومسموع ونصي في وقت واحد. في عالم الذكاء الاصطناعي، توصف هذه الأنواع من التعبير بأنها “طرائق”.
ادعت Google بفخر أن Gemini كان “متعدد الوسائط في الأصل” منذ البداية. كان GPT-4o من OpenAI هو النموذج الأول الذي يجمع بين معالجة الصوت والصورة وإمكانياته النصية الحالية. الآن أصبحت Google وOpenAI على قدم المساواة في مجال الوسائط المتعددة. وأظهرت الشركتان ما يمكنهما فعله بالتقنيات التي يمكنها “الرؤية” و”السماع”.
ربما تم حذف التغريدة
لكن كلا الشركتين قدمتا ميزات توضح بوضوح قدرة نماذجهما على “الرؤية” و”السمع” في الوقت الفعلي.
ربما تم حذف التغريدة
عرض نائب رئيس Google Sissie Hsiao ميزة حية لتطبيق Gemini المستقل الذي يعكس ما تعمل عليه DeepMind مع Project Astra، ويمكن أن تكون التكنولوجيا التي تدعم هذه الميزة والتي ستكون متاحة لمشتركي Gemini Advanced في الأشهر المقبلة. وقال هسياو إن Gemini Live “يمكن أن يفهمك بشكل أفضل ويستجيب بشكل طبيعي، ويمكنك حتى مقاطعته أثناء استجابة Gemini وسوف يتكيف مع الطريقة التي تتحدث بها”.
ربما تم حذف التغريدة
إذا كان روبوت الذكاء الاصطناعي الذي يمكنك مقاطعته يبدو مألوفًا، فذلك لأن OpenAI قالت ذلك أولاً. قال الباحث مارك تشين خلال العرض التجريبي المباشر لـ OpenAI في اليوم السابق لـ Google I/O: “يمكنك الآن مقاطعة النموذج”. “لست بحاجة إلى الانتظار حتى نهاية دورك قبل أن تبدأ في التحدث، ويمكنك المشاركة وقتما تشاء.”
لاحقًا في العرض التجريبي المباشر لـ OpenAI، استخدم الباحث Barrett Zoph GPT-4o لمساعدته في حل معادلة رياضية خطية. وجّه زوف كاميرا هاتفه الذكي نحو قطعة من الورق تحتوي على معادلة مكتوبة بخط اليد، وأخبره ChatGPT كيفية حل قيمة “x”.
سرعة الضوء قابلة للسحق
أظهر سمير سامات، رئيس نظام Android البيئي في Google، قدرة مماثلة على المساعدة في واجبات الفيزياء المنزلية باستخدام أداة Circle to Search الموجودة في Google. من خلال وضع دائرة حول مشكلة كلامية فعلية معروضة على جهاز Pixel، أوضح سامات كيف يمكن لـ Gemini معالجة العناصر المرئية وتقديم إرشادات خطوة بخطوة حول كيفية حلها.
ربما تم حذف التغريدة
شاركت الشركتان طرقًا أخرى يمكن أن تساعد بها الوسائط المتعددة المستخدمين. أظهر Zoph إمكانات الرؤية الجديدة لـ ChatGPT على تطبيق سطح المكتب من خلال إنشاء رسم بياني من الكود المستخدم لإظهار الوعي السياقي لـ GPT-4o. حدد ChatGPT بدقة أن الرسم البياني كان يتعلق ببيانات درجة الحرارة بمرور الوقت ونجح في تقديم تحليل لأهمية الرسم البياني.
في اليوم التالي في Google I/O، أوضح جوش وودوارد، نائب رئيس المختبرات، كيف يمكن لـ Notebook LM، دفتر Google الرقمي، أن يأخذ معلومات من كتاب فيزيائي مفتوح المصدر ويحوله إلى نوع محادثة بودكاست بين روبوتين حول قوانين نيوتن للفيزياء. حركة. . بعد ذلك، أوضح وودوارد كيف يمكنه القفز إلى المحادثة كما لو كان يتصل بالبودكاست ويطلب منه تخصيص أمثلة لابنه.
2. الذكاء الاصطناعي هو صديقك الذي يتمتع بالوعي بالسياق
كانت رسالة Google وOpenAI تدور حول كيف يمكن للذكاء الاصطناعي متعدد الوسائط تحسين حياة الناس. وقال بيتشاي عن عرض جوجل: “نريد أن يستفيد الجميع مما يمكن أن يفعله جيميني”. نموذج الذكاء الاصطناعي الرائد، Gemini 1.5 Pro. مهد هذا الطريق للإعلانات طوال الحدث بأن الجوزاء يناسب حياتك بسلاسة من خلال فهم السياق.
ولم يكن هذا أوضح مما كان عليه في أي مكان آخر مشروع استرا تجريبي فيديو من جوجل ديب مايند. هذه التكنولوجيا، التي توصف بأنها “عامل استجابة متقدم للرؤية والتحدث”، تجيب بدقة على الأسئلة المصاغة بشكل طبيعي والتي تشير إلى صور لم يتم ذكرها صراحة.
يقوم المُختبر بتوجيه كاميرا الهاتف الذكي نحو أشياء مختلفة، ويصف الكود الموجود على شاشة سطح المكتب، ويحدد مفهوم قطة شرودنغر الذي يُظهر رسمًا بسيطًا على السبورة البيضاء لوجه قطة تعيش بجوارها لوجه قطة ميتة وصندوق من الورق المقوى يحمله المختبر، ويقترح اسم مجموعة لنمر محشو ومسترد ذهبي (حقيقي). بالمناسبة اسم الفرقة هو “Golden Stripes”.
ربما تم حذف التغريدة
على نظام Android، أظهر نائب رئيس قسم الهندسة في Google David Burke كيف يبدو الوعي بالسياق في أيدي المستخدمين. أوضح بيرك كيفية طرح أسئلة محددة حول محتوى مقطع فيديو على YouTube، مثل قواعد Pickleball.
ربما تم حذف التغريدة
أظهر OpenAI أيضًا فهمًا للسياق. في العروض التوضيحية منشور على موقع OpenAIالنسخة الصوتية من GPT-4o “نظرت” إلى محاوريها من البشر، بشكل غنج ملاحظة قميص OpenAI الخاص بالعرض التوضيحي في إحدى الحالات، وإلقاء نكات الأب، وفهم السخرية، والتحكيم في لعبة مقص الصخور أمام الكاميرا في حالات أخرى. وفي عرض توضيحي آخر، تمت مشاركة الكود مع ChatGPT، وأظهر التطبيق القدرات الصوتية لـ GPT-4o من خلال تحليل الكود فعليًا، دون تلقي وصف واضح لما كان من المفترض أن يفعله.
لا يزال مشروع Astra التابع لشركة Google DeepMind قيد التطوير، ولكن سيتم طرح فهمه السياقي على Android للمستخدمين في الأشهر المقبلة. الوضع الصوتي GPT-4o الخاص بـ OpenAI ليس متاحًا بعد، مع عدم وجود تفاصيل حول تاريخ التسليم. بحسب للرئيس التنفيذي سام التمان.
3. مساعدو الذكاء الاصطناعي الذين يعرفون جدولك الزمني واحتياجات عملك
كانت الرسالة الرئيسية من Google I/O وحدث OpenAI هي أن الذكاء الاصطناعي يمكنه تولي مهام في حياتك تتراوح من الرؤية إلى المهام الدنيوية، والتي تتضمن عادةً، كما تعلم، البحث عن شيء ما على Google أو استخدام عقلك البشري. . ذهبت Google إلى أبعد من ذلك من خلال الدعوات الصريحة لـ وكلاء الذكاء الاصطناعيمساعدين و زملائه (كان هناك الكثير من المصطلحات المختلفة لمساعدي الذكاء الاصطناعي منتشرة في كل مكان، والتي، بصراحة، مازلنا في حيرة من أمرنا بشأنها).
تتضمن أمثلة ما قد يفعله وكلاء Google استخدام Gemini لإعادة زوج من الأحذية عن طريق التقاط صورة له بهاتفك ومطالبة الوكيل بالبحث في صندوق بريد Gmail الخاص بك عن الإيصال، وتحديد موقع رقم الطلب، وملء نموذج الإرجاع، و جدولة بيك اب. وكما أشار بيتشاي، فإن جوجل لم تصل إلى هذه المرحلة بعد، ولكنها على المستوى العملي هي بالفعل لوحة Gemini الجانبية في تطبيق Gmail للجوال يمكن تلخيص رسائل البريد الإلكتروني ذات الصلة أو صياغة الردود بناءً على الأدلة السياقية المأخوذة من صندوق الوارد الخاص بك.
ربما تم حذف التغريدة
هذا هو المكان الذي تكون فيه اليد العليا لـ Google، حيث يصبح الذكاء الاصطناعي أكثر فائدة عند العمل عبر تطبيقات مختلفة مثل Gmail وتقويم Google والبحث. OpenAI هي التي بدأت هذه المحادثة بالحديث عن هدفها المتمثل في تحقيق AGI (الذكاء العام الاصطناعي) والإشارة إلى مساعدي الذكاء الاصطناعي في الخيال العلمي مثل شخصية سكارليت جوهانسون في الفيلم. ها. في حدث OpenAI، الرئيس التنفيذي سام التمان غرد “هي” في إشارة واضحة إلى الفيلم. ولكن على الرغم من تطلعات OpenAI الصريحة أو الضمنية لهذا النوع من حالات الاستخدام، لم يكن هناك الكثير من الحديث عن عملاء الذكاء الاصطناعي.
ربما تم حذف التغريدة
بالإضافة إلى ذلك، ستواجه OpenAI معركة شاقة إذا أرادت أن يبدأ المستخدمون في تحميل مستندات العمل والتقويمات الخاصة بهم إلى حسابات ChatGPT الخاصة بهم. ولكن هل تعرف ما تقدمه تطبيقات البريد الإلكتروني والتقويم؟ تفاحة. وسيكون OpenAI كذلك أنهت الشراكة مع صانع iPhone لجلب ChatGPT إلى iOS 18. ومؤتمر مطوري Apple WWDC على بعد أقل من شهر.
لحوم البقر التكنولوجيا مستعرة والمزيد من المعارك قادمة قريبا.
المواضيع
ذكاء إصطناعي
جوجل