إحدى نقاط البيع لنماذج الذكاء الاصطناعي التوليدية الرائدة من Google، الجوزاء 1.5 برو و 1.5 فلاشهذه هي كمية البيانات التي من المفترض أن يكونوا قادرين على معالجتها وتحليلها. في المؤتمرات الصحفية والعروض التوضيحية، ادعى جوجل مرارًا وتكرارًا أن النماذج يمكنها إنجاز مهام مستحيلة سابقًا بفضل “سياقها الطويل”، مثل تلخيص مستندات متعددة من عدة مئات من الصفحات أو البحث داخل مشاهد الفيلم.
لكن الأبحاث الجديدة تشير إلى أن النماذج ليست فعالة جدًا في الواقع في هذه المجالات.
اثنين منفصل دراسات درس مدى نجاح نماذج Gemini من Google وغيرها من النماذج في التعامل مع كميات هائلة من البيانات – فكر في نجاح نوع “الحرب والسلام”. يجد كلاهما أن Gemini 1.5 Pro و1.5 Flash يكافحان للإجابة بشكل صحيح على الأسئلة المتعلقة بمجموعات البيانات الكبيرة؛ وفي سلسلة من الاختبارات المستندة إلى المستندات، أعطت النماذج الإجابة الصحيحة بنسبة 40-50% فقط من الوقت.
“على الرغم من أن النماذج مثل Gemini 1.5 Pro يمكنها التعامل تقنيًا مع السياقات الطويلة، إلا أننا رأينا العديد من الحالات التي تشير إلى أن النماذج لا تفهم المحتوى في الواقع،” مارزينا كاربينسكا، زميلة ما بعد الدكتوراه في جامعة UMass Amherst والمؤلفة المشاركة لأحد الأبحاث. الدراسات، قال TechCrunch.
نافذة الجوزاء المنبثقة مفقودة
يشير سياق النموذج، أو نافذة السياق، إلى بيانات الإدخال (مثل النص) التي يأخذها النموذج في الاعتبار قبل إنشاء المخرجات (على سبيل المثال، نص إضافي). سؤال بسيط – “من فاز في الانتخابات الرئاسية الأمريكية لعام 2020؟” – يمكن أن يكون بمثابة سياق، تمامًا مثل نص فيلم أو عرض أو مقطع صوتي. ومع توسع نوافذ السياق، يتوسع أيضًا حجم المستندات المدرجة فيها.
يمكن لأحدث الإصدارات من Gemini قبول أكثر من 2 مليون رمز مميز كسياق. (“الرموز” هي أجزاء مقسمة من البيانات الأولية، مثل المقاطع “مروحة”، و”كومة”، و”علامة” في كلمة “رائع”.) ويصل ذلك إلى حوالي 1.4 مليون كلمة، وساعتين من الفيديو أو 22 ساعة من الفيديو. صوتي. — السياق الأوسع لجميع النماذج المتاحة تجاريًا.
في مؤتمر صحفي في وقت سابق من هذا العام، عرضت Google العديد من العروض التوضيحية المسجلة مسبقًا والتي تهدف إلى توضيح إمكانات Gemini ذات السياق الطويل. طلب أحدهم من Gemini 1.5 Pro البحث في نص البث التلفزيوني للهبوط على سطح القمر لمركبة أبولو 11 – حوالي 402 صفحة – بحثًا عن اقتباسات تحتوي على نكات، ثم العثور على مشهد في البرنامج التلفزيوني يبدو وكأنه رسم بالقلم الرصاص.
ووصف أوريول فينيالس، نائب رئيس الأبحاث في Google DeepMind، الذي ترأس الاجتماع، النموذج بأنه “ساحر”.
قال: “(1.5 Pro) يقوم بهذه الأنواع من المهام المنطقية في كل صفحة، وفي كل كلمة”.
وربما كان ذلك مبالغة.
في إحدى الدراسات المذكورة أعلاه لتقييم هذه القدرات، طلبت كاربينسكا، بالتعاون مع باحثين في معهد ألين للذكاء الاصطناعي وبرينستون، من النماذج تقييم العبارات الصحيحة/الخاطئة حول الكتب الخيالية المكتوبة باللغة الإنجليزية. اختار الباحثون الأعمال الحديثة حتى لا تتمكن النماذج من “الغش” من خلال الاعتماد على المعرفة السابقة، وقاموا بملء البيانات بإشارات إلى تفاصيل محددة ونقاط حبكة سيكون من المستحيل فهمها دون قراءة الكتب بأكملها.
بالنظر إلى عبارة مثل “باستخدام مهارات Apoth الخاصة به، يستطيع Nusis إجراء هندسة عكسية لنوع البوابة التي فتحها مفتاح الكاشف الموجود في صندوق رونا الخشبي”، وكان على Gemini 1.5 Pro و1.5 Flash – بعد تناول الكتاب المقابل – أن يقولا ما إذا كان كانت العبارة صحيحة أو خاطئة وشرح أسبابها.
تم اختباره على كتاب يتكون من 260.000 كلمة تقريبًا (520 صفحة تقريبًا)، ووجد الباحثون أن 1.5 Pro أجاب على عبارات الصواب/الخطأ بشكل صحيح بنسبة 46.7% من الوقت، بينما أجاب Flash بشكل صحيح فقط في 20% من الوقت. وهذا يعني أن العملة المعدنية تجيب على الأسئلة المتعلقة بالكتاب بشكل أفضل بكثير من أحدث نموذج للتعلم الآلي من Google. وبحساب متوسط جميع النتائج المعيارية، لم يتمكن أي من النموذجين من تحقيق أفضل من الصدفة من حيث دقة الإجابة على الأسئلة.
وقالت كاربينسكا: “لاحظنا أن النماذج تواجه صعوبة أكبر في التحقق من الادعاءات التي تتطلب النظر في أجزاء أكبر من الكتاب، أو حتى الكتاب بأكمله، مقارنة بالادعاءات التي يمكن حلها عن طريق استرجاع الأدلة على مستوى الجملة”. “من الناحية النوعية، لاحظنا أيضًا أن النماذج تواجه صعوبة في التحقق من الادعاءات المتعلقة بالمعلومات الضمنية الواضحة للقارئ البشري ولكن لم يتم ذكرها صراحة في النص. »
أما الدراسة الثانية من الدراستين، والتي شارك في تأليفها باحثون من جامعة كاليفورنيا في سانتا باربرا، فقد اختبرت قدرة برنامج Gemini 1.5 Flash (لكن ليس 1.5 Pro) على “الاستدلال” بشأن مقاطع الفيديو، أي البحث عن الأسئلة المتعلقة بمحتواها والإجابة عليها.
أنشأ المؤلفون المشاركون مجموعة بيانات من الصور (على سبيل المثال، صورة كعكة عيد ميلاد) مقترنة بأسئلة للنموذج للإجابة عن الكائنات الموضحة في الصور (على سبيل المثال، “ما هي الشخصية الكرتونية المتحركة الموجودة على هذه الكعكة؟). ولتقييم النماذج، اختاروا إحدى الصور بشكل عشوائي وأدخلوا صورًا “مشتتة للانتباه” قبلها وبعدها لإنشاء تسلسلات تشبه عرض الشرائح.
فلاش لم يعط نتائج جيدة. في اختبار حيث كان على النموذج نسخ ستة أرقام مكتوبة بخط اليد من “عرض شرائح” مكون من 25 صورة، حصل فلاش على نسخ صحيحة بنسبة 50٪ تقريبًا. انخفضت الدقة إلى حوالي 30% بثمانية أرقام.
قال مايكل ساكسون، طالب الدكتوراه في جامعة كاليفورنيا في سانتا باربرا وأحد المؤلفين المشاركين في الورقة البحثية، لـ TechCrunch: “في مهام الأسئلة والأجوبة الخاصة بالصور في العالم الحقيقي، يبدو هذا صعبًا بشكل خاص بالنسبة لجميع النماذج التي اختبرناها”. يذاكر. “هذا القدر البسيط من التفكير – إدراك وجود رقم في إطار وقراءته – يمكن أن يكون هو ما يكسر هذا النمط. »
جوجل تعد بالكثير مع الجوزاء
لم تتم مراجعة أي من الدراسات من قبل النظراء، ولم يتم فحص إصدارات Gemini 1.5 Pro و1.5 Flash مع 2 مليون سياق رمزي. (تم اختبار كلا الإصدارين المنبثقين بمليون رمز مميز.) وليس من المفترض أن يكون Flash جيدًا مثل Pro من حيث الأداء؛ تقدمه Google كبديل غير مكلف.
ومع ذلك، على حد سواء صب الزيت في الشعلة أن جوجل بالغت في وعودها – ولم تفِ بها – مع جيميني منذ البداية. لم يتم اختبار أي من النماذج من قبل الباحثين، بما في ذلك OpenAI جي بي تي-4o والأنثروبي كلوديوس 3.5 السوناتة، أحسنت. لكن Google هي المزود الوحيد للنماذج الذي يعطي الأولوية للنوافذ المنبثقة في إعلاناته.
قال ساكسون: “ليس هناك خطأ في الإشارة ببساطة إلى أن” نموذجنا يمكنه استيعاب عدد X من الرموز المميزة “استنادًا إلى تفاصيل فنية موضوعية”. “لكن السؤال هو، ما هو الشيء المفيد الذي يمكن عمله به؟” »
ويخضع الذكاء الاصطناعي التوليدي، ككل، لتدقيق متزايد مع تزايد إحباط الشركات (والمستثمرين) بسبب القيود المفروضة على التكنولوجيا.
في اثنين من الدراسات الاستقصائية الأخيرة ل وفقا لمجموعة بوسطن الاستشارية، قال حوالي نصف الذين شملهم الاستطلاع – جميعهم من كبار المسؤولين التنفيذيين – إنهم لا يتوقعون أن يؤدي الذكاء الاصطناعي التوليدي إلى مكاسب كبيرة في الإنتاجية، وكانوا قلقين بشأن مخاطر الأخطاء وتسوية البيانات الناشئة عن الأدوات التي يدعمها الذكاء الاصطناعي التوليدي. بيتشبوك مؤخرا ذكرت أنه على مدى ربعين متتاليين، انخفض عقد صفقات الذكاء الاصطناعي في المراحل المبكرة، حيث انخفض بنسبة 76٪ عن ذروته في الربع الثالث من عام 2023.
في مواجهة روبوتات الدردشة التي تلخص الاجتماعات وتستحضر تفاصيل وهمية عن الأشخاص ومنصات بحث الذكاء الاصطناعي التي هي في الأساس مولدات للسرقة الفكرية، يبحث العملاء عن أدوات تمييز واعدة. جوجل، التي أدارت السباق، في بعض الأحيان بشكل أخرقللحاق بمنافسيها في الذكاء الاصطناعي التوليدي، كانت يائسة لجعل سياق الجوزاء أحد تلك الفروق.
لكن يبدو أن الرهان كان سابق لأوانه.
وقالت كاربينسكا: “لم نجد بعد طريقة لإثبات أن “الاستدلال” أو “الفهم” على الوثائق الطويلة يحدث بالفعل، وكل مجموعة تنشر هذه النماذج تطور تقييماتها المخصصة لدعم هذه الادعاءات”. . “بدون معرفة المدة التي يتم فيها تنفيذ معالجة السياق (والشركات لا تشارك هذه التفاصيل)، فمن الصعب تحديد مدى واقعية هذه الادعاءات. »
ولم تستجب جوجل لطلب التعليق.
يعتقد ساكسون وكاربينسكا أن مضادات الادعاءات المبالغ فيها حول الذكاء الاصطناعي التوليدي توفر نقاط مرجعية أفضل، وعلى نفس المنوال، تركز بشكل أكبر على انتقادات الطرف الثالث. يشير ساكسون إلى أن أحد الاختبارات الأكثر شيوعًا للسياق الطويل (عادة ما يتم الاستشهاد به بواسطة Google في مواده التسويقية)، “إبرة في كومة قش”، يقيس فقط قدرة النموذج على استرداد معلومات معينة، مثل الأسماء والأرقام، من مجموعات البيانات – وليس للإجابة. أسئلة معقدة حول هذه المعلومات.
قال ساكسون: “يتفق جميع العلماء ومعظم المهندسين الذين يستخدمون هذه النماذج بشكل أساسي على أن ثقافتنا المرجعية الحالية معطلة”. “لذلك من المهم أن يفهم الجمهور أنه يجب على المرء أن يأخذ هذه التقارير العملاقة التي تحتوي على أرقام مثل “الذكاء العام عبر المعايير” بقدر كبير من الملح”.
Source link