ماذا يحدث عندما نقوم بتدريب الذكاء الاصطناعي على البيانات التي يولدها الذكاء الاصطناعي؟
في عالم الذكاء الاصطناعي (AI) ونماذج اللغات الكبيرة (LLM)، يعد العثور على بيانات التدريب المناسبة متطلبًا أساسيًا لإنشاء حلول توليدية. مع استمرار نمو قدرات نماذج الذكاء الاصطناعي التوليدية مثل Chat GPT وDALL-E، يزداد الإغراء لاستخدام نتائجها الناتجة عن الذكاء الاصطناعي كبيانات تدريب لأنظمة الذكاء الاصطناعي الجديدة. ومع ذلك، فقد أظهرت الأبحاث الحديثة الآثار الخطيرة المترتبة على القيام بذلك، مما يؤدي إلى ظاهرة تسمى “انهيار النموذج”. وفي دراسة نُشرت في يوليو 2023، خلص علماء من جامعة رايس وجامعة ستانفورد إلى أن تدريب نماذج الذكاء الاصطناعي حصريًا على نتائج الذكاء الاصطناعي التوليدي ليس فكرة جيدة. وقد حملوا عنوان تقريرهم: “النماذج التوليدية المستهلكة للذات تصبح مجنونة”.
عندما نقوم بتدريب نموذج الذكاء الاصطناعي على البيانات التي تم إنشاؤها بواسطة نماذج الذكاء الاصطناعي الأخرى، فإنه يتعلم بشكل أساسي من الانعكاس المشوه لنفسه. وكما هو الحال مع لعبة “الهاتف”، فإن كل تكرار للبيانات التي يولدها الذكاء الاصطناعي يصبح أكثر فاسداً ومنفصلاً عن الواقع. لقد وجد الباحثون أن إدخال كمية صغيرة نسبيًا من المحتوى الناتج عن الذكاء الاصطناعي في بيانات التدريب يمكن أن يكون “سامًا” للنموذج، مما يتسبب في تدهور نتائجه بسرعة إلى رطانة لا معنى لها خلال دورات قليلة من التدريب فقط. وذلك لأن الأخطاء والتحيزات المتأصلة في البيانات الاصطناعية تتضخم عندما يتعلم النموذج من النتائج التي يولدها.
وقد لوحظت مشكلة انهيار النموذج في أنواع مختلفة من نماذج الذكاء الاصطناعي، بدءًا من نماذج اللغة وحتى مولدات الصور. قد تكون النماذج الأكبر حجما والأكثر قوة أكثر متانة قليلا، ولكن هناك القليل من الأدلة على أنها محصنة ضد هذه المشكلة. ومع انتشار المحتوى الناتج عن الذكاء الاصطناعي عبر الإنترنت وفي مجموعات بيانات التدريب القياسية، فمن المرجح أن يتم تدريب نماذج الذكاء الاصطناعي المستقبلية على مزيج من البيانات الحقيقية والاصطناعية. وهذا يشكل حلقة “التهامية ذاتية” أو حلقة مستهلكة ذاتيًا يمكنها أن تؤدي تدريجيًا إلى تدهور جودة وتنوع نتائج النماذج على مدى الأجيال المتعاقبة.
أجرى باحثون من جامعة رايس وجامعة ستانفورد تحليلًا متعمقًا لنماذج الصور التوليدية المستهلكة ذاتيًا، حيث تم تدريب النماذج على نتائجها الاصطناعية. وقد حددوا ثلاثة أنواع رئيسية من الحلقات المستهلكة ذاتيا:
- تجعيد الشعر الاصطناعية بالكامل: في هذه الحلقات، يتم تدريب النماذج فقط على البيانات الاصطناعية التي تم إنشاؤها بواسطة النماذج السابقة. وجد الباحثون أن هذه الحلقات الاصطناعية بالكامل تؤدي حتمًا إلى اضطراب الالتهام الذاتي النموذجي (MAD)، مع انخفاض جودة (دقة) أو تنوع (استدعاء) الصور المولدة تدريجيًا على مدار الأجيال المتعاقبة. على سبيل المثال، تم إجراء التدريب على مولدين متطابقين لصور الوجه في حلقات اصطناعية بالكامل ــ أحدهما يحتوي على تحيزات “أخذ العينات” والآخر لا يعمل على تحسين الجودة الاصطناعية على حساب التنوع. بدون تحيز، طورت الصور التي تم إنشاؤها قطعًا أثرية متموجة أدت إلى انخفاض الواقعية (الجودة). مع التحيزات، احتفظت الصورة بجودة عالية ولكنها أصبحت أقل تنوعًا، وتتقارب في النهاية على عدد قليل من الوجوه المتطابقة تقريبًا.
- تجعيد الشعر الاصطناعي: تتضمن هذه الحلقات مجموعة ثابتة من بيانات التدريب الحقيقية بالإضافة إلى البيانات الاصطناعية. وقد وجد الباحثون أن هذا يمكن أن يؤخر ولكن لا يمنع ظهور MAD. تعمل البيانات الحقيقية في البداية على تحسين الأداء، ولكن البيانات الاصطناعية تهيمن في نهاية المطاف وتؤدي إلى انخفاض الجودة أو التنوع.
- حلقات بيانات جديدة: في هذه الحلقات، يتمتع كل جيل من النموذج بإمكانية الوصول إلى مجموعة جديدة من بيانات التدريب الحقيقية التي لم يتم رؤيتها من قبل. وقد وجد الباحثون أن هذا يمكن أن يمنع MAD ويحافظ على جودة وتنوع الصور التي يتم إنشاؤها على مدى الأجيال المتعاقبة. والعامل الرئيسي هو توافر بيانات حقيقية جديدة وكافية في كل جيل. وفي غياب ما يكفي من البيانات الجديدة في العالم الحقيقي، فإن النماذج التوليدية المستهلكة ذاتيا محكوم عليها بالمعاناة من الجنون المتبادل، حيث تتدهور نتائجها تدريجيا من حيث الجودة أو التنوع. باختصار، توضح دراسة الحالة هذه كيف يمكن للنماذج التوليدية المستهلكة ذاتيًا أن تقع ضحية لاضطراب الالتهام الذاتي النموذجي، مع تدهور نتائجها الاصطناعية بمرور الوقت ما لم تتمكن من الوصول إلى إمدادات ثابتة من بيانات التدريب الجديدة في العالم الحقيقي.
في الآونة الأخيرة، تعهدت شخصيات بارزة في صناعة الذكاء الاصطناعي في البيت الأبيض بتقديم استراتيجيات مثل العلامة المائية لتمييز البيانات الاصطناعية عن البيانات الحقيقية. ومن شأن نهج العلامات المائية المقترح أن يدمج علامة فنية في المحتوى الاصطناعي، مثل الصور أو الملفات الصوتية المزيفة بشدة. تهدف هذه العلامة المائية إلى تسهيل تحديد المستخدمين عندما يتم إنشاء المحتوى بشكل مصطنع، بدلاً من التقاط أحداث العالم الحقيقي. وتهدف هذه الجهود في نهاية المطاف إلى مكافحة الآثار الضارة للبيانات الاصطناعية على الإنترنت. عندما يتعلق الأمر باضطراب الالتهام الذاتي النمطي (MAD)، يمكن أن تكون العلامة المائية بمثابة إجراء وقائي لمنع النماذج التوليدية من التدريب على البيانات التي يولدها الذكاء الاصطناعي. ومع ذلك، فإن فعالية هذه الأساليب لمكافحة الجنون لا تزال غير واضحة وتتطلب المزيد من البحث.
يسلط الباحثون الضوء أيضًا على الأهمية الحاسمة للحفاظ على توازن تمثيلي بين المحتوى الحقيقي والتركيبي في بيانات التدريب، مع الحفاظ على مجموعات الأقليات بشكل صحيح. ستحتاج الشركات إلى تنظيم مجموعات البيانات الخاصة بها بعناية ومراقبة علامات التدهور. يجب أن تكون بيانات التدريب متنوعة وممثلة لوجهات نظر مختلفة ويجب بذل جهود خاصة لدمج مصادر البيانات التي عادة ما تكون ممثلة تمثيلا ناقصا في المشهد الرقمي. وبخلاف ذلك، فإننا نجازف برؤية أنظمة الذكاء الاصطناعي تبتعد بشكل متزايد عن الواقع، مع نتائج متحيزة وغير موثوقة وسخيفة. وقد يكون لذلك عواقب وخيمة في العديد من المجالات، بدءًا من إنشاء المحتوى وحتى أنظمة صنع القرار. صحيح أننا كبشر نستهلك قدرًا هائلاً من الأشياء التي يولدها الذكاء الاصطناعي في حياتنا، ولكن كبشر لدينا آليات للتكيف ربما لا تمتلكها أنظمة الذكاء الاصطناعي.
تعكس الدروس المستفادة من هذا البحث حكايات تحذيرية من الماضي، مثل انتشار التساقط الإشعاعي الذي يلوث الفولاذ المنتج حديثًا. وكما كان علينا أن نكون يقظين بشأن نقاء موادنا، يجب علينا الآن أن نكون يقظين بنفس القدر بشأن نقاء بيانات تدريب الذكاء الاصطناعي لدينا. ومن خلال معالجة البيانات ومراقبتها بشكل مسؤول، نأمل أن نتمكن من توجيه تطوير الذكاء الاصطناعي في اتجاه يظل راسخًا ويلبي الاحتياجات المتنوعة لجميع المجتمعات. والبديل هو مستقبل بائس حيث تصبح أدوات الذكاء الاصطناعي لدينا على نحو متزايد “مجنونة”، ولم تعد صالحة للغرض.
عن المؤلف
رانجيتا بهاتاشاريا هو أحد كبار علماء البيانات في جناح AI Hub في BNY Mellon، أكبر بنك حفظ في العالم. تمتد خبرتي الإجمالية كمستشار في علوم/تكنولوجيا البيانات لأكثر من 15 عامًا، حيث شغلت خلالها أدوارًا فنية ووظيفية متعددة الأوجه كمطور برامج، ومصمم حلول، ومحلل فني، ومدير مشروع، وتسليم، ومدير مشروع، وما إلى ذلك. استشارات شركات فورتشن 500 حول العالم. لديّ درجة جامعية في علوم وهندسة الكمبيوتر، ودرجة الماجستير في علوم البيانات، ولدي شهادات ومنشورات متعددة في هذه المجالات. مما يدل على التزامي بالتعلم المستمر وتبادل المعرفة.
قم بالتسجيل مجانًا في insideBIGDATA النشرة الإخبارية.
انضم إلينا على تويتر: https://twitter.com/InsideBigData1
انضم إلينا على لينكد إن: https://www.linkedin.com/company/insidebigdata/
انضم إلينا على فيس بوك: https://www.facebook.com/insideBIGDATANOW