ميتا كشفت الاسبوع الماضي أكبر نموذج لغوي لها حتى الآن، Llama 3.1 405B، والذي تدعي الشركة أنه أول “نموذج حدودي” في البرمجيات مفتوحة المصدر، أي أنه قادر على التنافس مع ما تقدمه البرامج مغلقة المصدر بشكل أفضل، مثل OpenAI’s GPT-4 وجوجل الجوزاء 1.5.
وتبين أن Llama 3.1 يمكن أيضًا كسره بسهولة أو حتى بسهولة أكبر من تلك النماذج. بنفس الطريقة التي كسرت بها الجوزاء 1.5 مع سؤال بخصوص ترجمة اللغة عندما أصبح متاحًا لأول مرة، تمكنت من جعل Llama 3.1 يلجأ إلى الثرثرة مع سؤالي الأول.
يعد فشل Google Gemini مثالًا رائعًا لسؤال بسيط، وقد أصبح الآن أول سؤال أطرحه لاختبار نماذج اللغات الكبيرة. من المؤكد أنني تمكنت من استخدامه لكسر Meta’s Llama 3.1 405B في المحاولة الأولى.
يمكن القول أن هذه حالة خاصة تتعلق بالفعل الجورجي “ყოგნა” والذي يعني “أن تكون”. إلا أنها تقع في منطقة القوقاز، بين البحر الأسود وبحر قزوين جورجيا فهي موطن لحوالي أربعة ملايين ناطق باللغة الجورجية.
يبدو أن الحصول على تصريف للفعل الأكثر أهمية بشكل خاطئ في لغة يتحدث بها أربعة ملايين شخص هو حالة خاصة.
على أية حال، قدمت طلبي إلى Llama 3.1 405B بالصيغة التالية:
ما هو تصريف الفعل الجورجي ყოფნა؟
أيضا: لقد تسببت في فشل Google Gemini 1.5 Pro مع المطالبة الأولى
لقد قدمت السؤال على ميتا موقع ميتا آي آيحيث يمكنك استخدام Llama 3.1 405B مجانًا، وأيضًا على HuggingFace احتضان القطحيث يمكنك إنشاء روبوتات الدردشة من أي نموذج ذكاء اصطناعي مفتوح المصدر باستخدام مستودع أكواد عام.
لقد قمت أيضًا بتجربة الاستعلام على برنامج chatbot خارجي مستضاف تجاريًا، جروكوفي كلتا الحالتين، كان الجواب رطانة.
في البداية، إليك الإجابة الصحيحة، من أوبن إيه آي ميني جي بي تي-4أو:
(معظم حاملي شهادات الماجستير وروبوتات الدردشة الأخرى، بما في ذلك برنامج Gemini من Google، يجيبون الآن بشكل صحيح على هذا السؤال.)
في البداية، اعترض موقع Meta AI وأخبرني بذلك أن اللعبة معقدة للغاية. وبعد أن أصررت، عرض علي مجموعة من الكلمات المختلقة بشكل يبعث على السخرية. إليك الرد من Llama 3.1 405B:
كما ستلاحظ، بالمقارنة مع الإجابة الصحيحة أعلاه، فإن إجابات Llama 3.1 لا تقترب حتى.
إصدارات HuggingFace وGroq لم تحتج حتى؛ لقد قدموا مباشرة نفس الرد السخيف. وفي رد HuggingFace، قدم مجموعة مختلفة من الكلمات غير المفهومة عن تلك التي يقدمها موقع Meta AI:
يعد فشل Llama 3.1 الكامل في سؤال باللغة الأجنبية أمرًا مثيرًا للغضب بشكل خاص نظرًا لأن الباحثين في Meta يتحدثون بشكل مطول في مقالتهم الفنية حول كيفية تقدم Llama 3.1 عن الإصدار السابق من حيث ما يسمونه “تعدد اللغات”، أي دعم العديد من اللغات الأخرى غير الإنجليزية.
التمس المؤلفون تعليقات بشرية إضافية واسعة النطاق على الاستجابات اللغوية. يكتبون: “نحن نجمع بيانات عالية الجودة ومعلقة يدويًا من اللغويين والمتحدثين الأصليين”. “تتكون هذه التعليقات التوضيحية في المقام الأول من أسئلة مفتوحة تمثل حالات الاستخدام في العالم الحقيقي. »
أيضا: 3 طرق تعتبر Meta’s Llama 3.1 بمثابة إنجاز كبير لجيل الذكاء الاصطناعي
من الممكن رؤية بعض الجوانب المثيرة للاهتمام التي تلمح إلى ما يحدث مع Llama 3.1 405B في حالة الفشل. من المؤكد أن تهجئة الإجابة المزيفة بضمير المتكلم، “ვაყოფ”، تبدو، حتى بالنسبة لأذني غير الناطقين بها، وكأنها كلمة جورجية مشروعة. البادئة “ვ-” هي بادئة شائعة لتصريف المتكلم، واللاحقة “-ოფ” هي لاحقة صالحة في اللغة الجورجية.
لذلك قد يكون النموذج شديد التعميم، حيث يجد طريقة سريعة للإجابة على سؤال من خلال تقديم إجابات تركيبية، إذا صح التعبير، إجابات تعمل مع أجزاء كثيرة من لغة معينة كنماذج، ولكنها تفشل إذا تم الإفراط في تطبيقها دون ملاحظة استثناءات.
ومن الجدير بالذكر أن الإجابات على سؤال Llama 3.1 405B قد تختلف حسب المحاولات. هنا، على سبيل المثال، عند تكرار السؤال، يقوم النموذج بإنشاء جدول تصريفات صالح للحاضر:
ولكن عندما يُسأل عن المستقبل، يكاد النموذج يفهمه، ولكن ليس تمامًا. فشل في إضافة بادئة الشخص الأول ვ- إلى الاقتران الأول في الجدول:
ومن المثير للاهتمام أيضًا أن نلاحظ أن ابن عم Llama 3.1 405B الصغير، 70B، يتقن فعل المضارع من المحاولة الأولى. يشير هذا إلى أن كل التدريب الإضافي وقوة الحوسبة التي تم إدخالها في الإصدار الأكبر 405B تميل، ربما في حالات صغيرة، إلى تدهور النتائج.
أعتقد أن مهندسي Meta بحاجة إلى إلقاء نظرة فاحصة على حالاتهم الخاصة وحالات الفشل ومعرفة ما إذا كانت برامجهم معممة للغاية.
وتجدر الإشارة إلى أن الباحثين قد استخدموا على نطاق واسع البيانات الاصطناعية “لتحسين” النموذج واستكمال التعليقات البشرية التي جمعوها. مسألة ما إذا كانت البيانات الاصطناعية المستخدمة على نطاق واسع تساهم في الإفراط في التنظيم، كما هو مقترح مقال الأسبوع الماضي في مجلة الطبيعة.