احذر من انهيار نموذج الذكاء الاصطناعي: كيف يؤدي التدريب على البيانات الاصطناعية إلى تلويث الجيل القادم

Maywiltech29/07/2024

0 0 3 دقائق

إيفجيني أوستروشكو / غيتي إميجز

لإشباع شهيته التي لا نهاية لها الذكاء الاصطناعي التوليدي (جنرال الذكاء الاصطناعي) بالنسبة للبيانات، حاول الباحثون بشكل متزايد في السنوات الأخيرة إنشاء بيانات “اصطناعية”، والتي تشبه الأعمال التي أنشأها الإنسان والتي تم استخدامها لتدريب نماذج الذكاء الاصطناعي ولكن تم إنشاؤها بواسطة الذكاء الاصطناعي.

تعتبر حركة البيانات الاصطناعية ديناميكية بسبب مخاوف انتهاك حقوق الطبع والنشر المتعلقة ببيانات التدريب المستندة إلى الإنسان، وأيضًا لأن متطلبات التدريب على النماذج الأفضل بشكل متزايد قد تتجاوز في النهاية توافر البيانات المولدة بواسطة الإنسان.

أيضا: 3 طرق تعتبر Meta’s Llama 3.1 بمثابة إنجاز كبير لجيل الذكاء الاصطناعي

على سبيل المثال، في نموذج ميتا الرائد مفتوح المصدر، Llama 3.1 405B، والذي قامت الشركة قدمت الاسبوع الماضياستخدم الباحثون البيانات الاصطناعية على نطاق واسع “لضبط” النموذج واستكمال التعليقات البشرية التي جمعوها.

ومع ذلك، هناك صيد. باحثون في جامعة أكسفورد يحذرون العدد الأخير من المجلة العلمية المرموقة Nature أن استخدام مثل هذه البيانات الاصطناعية لتدريب جيل الذكاء الاصطناعي يمكن أن يؤدي إلى انخفاض كبير في دقة النماذج، إلى حد جعلها عديمة الفائدة.

انهيار نموذج الذكاء الاصطناعي — قام الباحثون في جامعة أكسفورد بدمج نتائج النماذج اللغوية الكبيرة في البرنامج التدريبي للنماذج المتعاقبة، مما أجبر النماذج في النهاية على إنتاج رطانة بعد عدة أجيال.

جامعة أكسفورد

في هذه الورقة، يصف المؤلف الرئيسي إيليا شوميلوف وفريقه ما يسمونه “انهيار النموذج” وكيف يزداد الوضع سوءًا في كل مرة تقوم فيها النماذج بتغذية النموذج التالي ببيانات خاطئة.

أيضا: فاز برنامج DeepMind AI من Google بالميدالية الفضية في مسابقة الرياضيات المعقدة

كتب فريق شوميلوف: “إن انهيار النموذج هو عملية تنكسية تؤثر على أجيال من النماذج التوليدية المستفادة، حيث تؤدي البيانات التي تولدها في النهاية إلى تلويث مجموعة تدريب الجيل التالي”. “بعد تدريبهم على البيانات الملوثة، فإنهم يسيئون فهم الواقع. »

أكسفورد-2024-أقل حيرة-في-انهيار النموذج — يحدث تحول التوزيع عندما تتغير احتمالية استجابات معينة بناءً على التغييرات في نموذج الذكاء الاصطناعي. في الرسم البياني، يتحول منحنى نسخة الجيل التاسع من نموذج الذكاء الاصطناعي إلى اليسار، بحيث تتولى “الحيرة” وتنوع الاستجابات، وتتناقص الاستجابات الأكثر شيوعًا، مما يؤدي إلى تدهور جودة استجابات النموذج.

جامعة أكسفورد

وعلى وجه التحديد، تغفل النماذج عن الحقائق الأقل شيوعًا عبر الأجيال، وتصبح أكثر عمومية. ومن خلال القيام بذلك، تصبح الإجابات التي يقدمونها غير ذات صلة تمامًا بالأسئلة التي يطرحونها، وتتحول إلى رطانة كاملة. يكتبون: “تبدأ النماذج في نسيان الأحداث غير المحتملة مع مرور الوقت، لأن النموذج مسموم بإسقاطاته الخاصة للواقع”.

يكتب المؤلفون أن هذه النتائج “يجب أن تؤخذ على محمل الجد” لأن الجيل التالي من الذكاء الاصطناعي يواجه خطر التدهور مع غمر الإنترنت بنتائج نماذج الذكاء الاصطناعي التي يعاد استخدامها بعد ذلك. يكتبون: “إن الاستخدام واسع النطاق لماجستير القانون لنشر المحتوى على الإنترنت سوف يلوث جمع البيانات لتدريب خلفائهم: فالبيانات المتعلقة بالتفاعلات البشرية مع حاملي ماجستير القانون ستكون ذات قيمة متزايدة”.

أيضا: تقدم OpenAI GPT-4o mini لتقليل تكاليف التطبيق

للوصول إلى هذا الاستنتاج، أجرى المؤلفون تجربة باستخدام نموذج الذكاء الاصطناعي مفتوح المصدر من Meta، OPT، لـ “المحول المفتوح المدرب مسبقًا”، تم تقديمه في عام 2022يشبه هيكله هيكل GPT-3 الخاص بشركة OpenAI، ولكنه أصغر بكثير، حيث يحتوي على 125 مليون معلمة عصبية فقط، أو “الأوزان”.

استخدم فريق شوميلوف مجموعة بيانات Wikitext2 لمقالات ويكيبيديا “لضبط” الأرض الفلسطينية المحتلة، أي إعادة تدريبها ببيانات إضافية، وهي ممارسة شائعة جدًا في جيل الذكاء الاصطناعي. استخدم المؤلفون بعد ذلك OPT المكررة ليقوموا بدورهم بإنشاء نسخ تركيبية من بيانات Wikitext، وقاموا بإدخال هذه البيانات الوهمية الجديدة في عملية التحسين التالية، وهو نوع من الاستخدام الوحشي لمخرجات نموذج كمدخل لنموذج آخر.

أعطى المؤلفون أمثلة لما يحدث بعد خمس دورات من استخدام كل نموذج مكرر كمصدر لتدريس النموذج التالي: بحلول الجيل الخامس، يصبح الأمر رطانة كاملة. في الوقت نفسه، يكتبون، أن الأخطاء الواقعية المحددة تصبح أكثر شيوعًا مع كل جيل: “نجد أنه على مر الأجيال، تبدأ النماذج في تقديم تسلسلاتها غير المحتملة، أي الأخطاء. »

وبالتفكير في ما يمكن فعله لمنع انهيار النموذج، أنهى المؤلفون مقالتهم بملاحظة مثيرة للقلق. من الضروري الحفاظ على بيانات التدريب الأصلية التي أنشأها الإنسان وكذلك القدرة على الاستمرار في الوصول إلى البيانات الجديدة التي أنشأها الإنسان، ولكن هذا يصبح أكثر صعوبة حيث أن توليد البيانات الاصطناعية للذكاء الاصطناعي يملأ المزيد والمزيد من الإنترنت، مما يخلق نوعًا من الإنترنت المفقود في العالم. ماضي.

غلاف-طبيعة-مجلة-25-يوليو-2024.png — طبيعة

وحذروا من أنه “قد يصبح من الصعب بشكل متزايد تدريب إصدارات جديدة من دورات LLM دون الوصول إلى البيانات المستخرجة من الإنترنت قبل الاعتماد الشامل للتكنولوجيا أو دون الوصول المباشر إلى البيانات التي أنشأها البشر على نطاق واسع. »

وقد لخص محررو المجلة المشكلة بإيجاز قدر الإمكان باستخدام المثل القديم لعلم البيانات الذي وضعوه على الغلاف: “القمامة تدخل، القمامة تخرج”.

Source link