الثلاثاء، بدء التشغيل الأنثروبي مطلق سراحه عائلة من نماذج الذكاء الاصطناعي التوليدية التي تدعي أنها تحقق الأداء الأفضل في فئتها. وبعد أيام قليلة، منافس انعطاف الذكاء الاصطناعي كشفت النقاب عن نموذج تقول إنه قريب من نماذج بعض النماذج الأكثر نجاحًا في السوق، بما في ذلك نموذج OpenAI. جي بي تي-4مثل.
إن شركتي Anthropic وInflection ليستا بأي حال من الأحوال أولى شركات الذكاء الاصطناعي التي تدعي أن نماذجها تمكنت من مجاراة المنافسة أو التغلب عليها بأي مقياس موضوعي. جادلت جوجل بنفس الشيء بشأنها تَوأَم النماذج عندما تم إصدارها، وقد قالت OpenAI هذا عن GPT-4 وأسلافه، جي بي تي-3, جي بي تي-2 و جي بي تي-1. ال قائمة يذهب على.
لكن عن أي إجراءات يتحدثون؟ عندما يدعي البائع أن النموذج يحقق أداء أو جودة رائدة في الصناعة، فماذا يعني ذلك بالضبط؟ وربما بتعبير أدق: هل سيكون النموذج الذي “يعمل” من الناحية الفنية أفضل من نموذج آخر في الواقع؟ يشعر تحسنت بشكل ملموس؟
وفيما يتعلق بهذا السؤال الأخير، من غير المرجح.
السبب – أو بالأحرى المشكلة – يكمن في المعايير التي تستخدمها شركات الذكاء الاصطناعي لتحديد نقاط القوة – ونقاط الضعف في النموذج.
المعايير الأكثر استخدامًا لنماذج الذكاء الاصطناعي اليوم، وخاصة النماذج التي تدعم برامج الدردشة الآلية مثل OpenAI. ChatGPT والبشرية كلود – فشل في فهم كيفية تفاعل الشخص العادي مع النماذج التي تم اختبارها. على سبيل المثال، يحتوي المعيار الذي استشهدت به Anthropic في إعلانها الأخير، GPQA (“معيار الأسئلة والأجوبة على مستوى الدراسات العليا في Google”)، على مئات من الأسئلة على مستوى الدكتوراه في علم الأحياء والفيزياء والكيمياء – ومع ذلك يستخدم معظم الأشخاص برامج الدردشة الآلية لمهام مثل الرد على رسائل البريد الإلكتروني، وكتابة رسائل الغلاف و التحدث عن مشاعرهم.
يقول جيسي دودج، العالم في معهد ألين للذكاء الاصطناعي، وهو منظمة غير ربحية لأبحاث الذكاء الاصطناعي، إن الصناعة وصلت إلى “أزمة التقييم”.
قال دودج لـ TechCrunch في مقابلة: “عادةً ما تكون المعايير ثابتة وتركز بشكل ضيق على تقييم قدرة واحدة، مثل واقعية النموذج في مجال واحد، أو قدرته على حل أسئلة التفكير الرياضي متعددة الاختيارات”. “العديد من المعايير المستخدمة للتقييم عمرها أكثر من ثلاث سنوات، عندما كانت أنظمة الذكاء الاصطناعي تستخدم في المقام الأول لأغراض البحث فقط ولم يكن لديها العديد من المستخدمين الحقيقيين. بالإضافة إلى ذلك، يستخدم الأشخاص الذكاء الاصطناعي التوليدي بعدة طرق: فهم مبدعون للغاية. »
لا يعني ذلك أن المعايير الأكثر استخدامًا عديمة الفائدة تمامًا. بالتأكيد يطرح شخص ما أسئلة رياضية على مستوى الدكتوراه في ChatGPT. ومع ذلك، مع وضع نماذج الذكاء الاصطناعي التوليدية نفسها على نحو متزايد كأنظمة جماعية “تفعل كل شيء”، أصبحت المعايير القديمة أقل قابلية للتطبيق.
يشير ديفيد ويدر، باحث ما بعد الدكتوراه في جامعة كورنيل والذي يدرس الذكاء الاصطناعي والأخلاق، إلى أن العديد من الاختبارات المعيارية الشائعة للمهارات – بدءًا من حل مسائل الرياضيات على مستوى المدرسة الابتدائية إلى تحديد ما إذا كانت الجملة تحتوي على مفارقة تاريخية – لن تكون ذات صلة بالأغلبية أبدًا من المستخدمين.
قال ويدر: “غالبًا ما تم تصميم أنظمة الذكاء الاصطناعي الأقدم لحل مشكلة معينة في سياق واحد (على سبيل المثال، الأنظمة المتخصصة في الذكاء الاصطناعي الطبي)، مما يجعل من الممكن الحصول على فهم سياقي عميق لما يشكل أداءً جيدًا في هذا السياق. سياق معين”. تك كرانش. “نظرًا لأن الأنظمة يُنظر إليها بشكل متزايد على أنها “أغراض عامة”، فإن هذا الأمر أصبح أقل احتمالًا، ولهذا السبب نشهد المزيد والمزيد من التركيز على اختبار النماذج على مجموعة متنوعة من المعايير في مجالات مختلفة.
وبغض النظر عن عدم التوافق مع حالات الاستخدام، فمن المشكوك فيه ما إذا كانت بعض المعايير تقيس بشكل صحيح ما تدعي أنها تقيسه.
أ تحليل من HellaSwag، وهو اختبار مصمم لتقييم المنطق المنطقي في النماذج، وجد أن أكثر من ثلث أسئلة الاختبار تحتوي على أخطاء مطبعية وكتابة “غير منطقية”. مكان آخر، MMLU (اختصار لعبارة “فهم لغة المهام المتعددة الهائل”)، وهو معيار يستشهد به بائعون مثل Google، وOpenAI، وAnthropic كدليل على أن نماذجهم قادرة على التفكير من خلال المشكلات المنطقية، يطرح أسئلة يمكن الإجابة عليها عن طريق الحفظ عن ظهر قلب.
قال ويدر: “(المعايير مثل MMLU) تتعلق أكثر بالحفظ وربط كلمتين رئيسيتين معًا”. “يمكنني العثور على مقالة (ذات صلة) بسرعة إلى حد ما والإجابة على السؤال، ولكن هذا لا يعني أنني أفهم الآلية السببية، أو أنه يمكنني استخدام فهم تلك الآلية السببية للتفكير فعليًا وحل المشكلات الجديدة والمعقدة في سياقات غير متوقعة. . النموذج لا يستطيع ذلك أيضاً.
وبالتالي يتم كسر المعايير. ولكن هل يمكن إصلاحها؟
دودج يعتقد ذلك – مع المزيد من المشاركة البشرية.
وقالت: “إن المسار الصحيح الذي يجب اتباعه هنا هو الجمع بين معايير التقييم والتقييم البشري، من خلال طرح نموذج يتضمن استعلامًا فعليًا للمستخدم ثم تعيين شخص لتقييم جودة الاستجابة”.
أما بالنسبة إلى ويدر، فهو أقل تفاؤلا بإمكانية تحسين المعايير الحالية ــ حتى مع إصلاح الأخطاء الأكثر وضوحا، مثل الأخطاء المطبعية ــ إلى النقطة التي تصبح عندها مفيدة للغالبية العظمى من مستخدمي النماذج. وبدلاً من ذلك، فهو يعتقد أن اختبار النماذج يجب أن يركز على التأثيرات النهائية لتلك النماذج وما إذا كانت التأثيرات، سواء كانت جيدة أو سيئة، تعتبر مرغوبة من قبل المتأثرين.
وقال: “أود أن أسأل ما هي الأغراض السياقية المحددة التي نريد أن يتم استخدام نماذج الذكاء الاصطناعي من أجلها وتقييم ما إذا كانت ستكون ناجحة أم لا في مثل هذه السياقات”. “وآمل أن تتضمن هذه العملية أيضًا تقييم ما إذا كان ينبغي لنا استخدام الذكاء الاصطناعي في مثل هذه السياقات”.
Source link