يقول مقال جديد إن الذكاء الاصطناعي ليس جيدًا جدًا في التاريخ
يمكن للذكاء الاصطناعي أن يتفوق في مهام معينة مثل الترميز أو إنشاء بودكاست. لكنه يكافح من أجل اجتياز امتحان تاريخ رفيع المستوى، بحسب صحيفة جديدة.
أنشأ فريق من الباحثين معيارًا جديدًا لاختبار النماذج اللغوية الثلاثة الرائدة واسعة النطاق (LLMs) – GPT-4 من OpenAI، وMeta’s Llama، وGemini من Google – بشأن المسائل التاريخية. يختبر المعيار Hist-LLM دقة الإجابات وفقًا لبنك بيانات التاريخ العالمي Seshat، وهي قاعدة بيانات واسعة للمعرفة التاريخية تحمل اسم إلهة الحكمة المصرية القديمة.
النتائج التي تم تقديمها في الشهر الماضي، كان مؤتمر NeurIPS AI رفيع المستوى مخيبا للآمال، وفقا للباحثين المنتسبين للجمعية. مركز علوم التعقيد (CSH)، معهد أبحاث مقره في النمسا. كان LLM الأفضل أداءً هو GPT-4 Turbo، لكنه حقق دقة تبلغ حوالي 46٪ فقط، وليس أكثر من مجرد تخمين بالصدفة.
“الخلاصة الرئيسية من هذه الدراسة هي أن ماجستير إدارة الأعمال، على الرغم من كونه مثيرًا للإعجاب، إلا أنه لا يزال يفتقر إلى عمق الفهم المطلوب للتاريخ المتقدم. قالت ماريا ديل ريو-شانونا، إحدى المؤلفات المشاركة للمقال والمساعد: “إنها رائعة بالنسبة للحقائق الأساسية، ولكن عندما يتعلق الأمر بالتحقيق التاريخي الأكثر دقة على مستوى الدكتوراه، فإنهم لم يصلوا بعد إلى مستوى المهمة”. . أستاذ علوم الكمبيوتر في جامعة كوليدج لندن.
شارك الباحثون مع موقع TechCrunch أمثلة على الأسئلة التاريخية التي أخطأ فيها طلاب LLM. على سبيل المثال، تم سؤال GPT-4 Turbo عما إذا كان الدرع الحجمي موجودًا في فترة معينة من مصر القديمة. أجاب ماجستير القانون بنعم، لكن التكنولوجيا لم تظهر في مصر إلا بعد مرور 1500 عام.
لماذا يكون طلاب ماجستير القانون سيئين في الإجابة على الأسئلة التقنية التاريخية، في حين أنهم يمكن أن يكونوا جيدين جدًا في الإجابة على أسئلة معقدة للغاية حول أشياء مثل البرمجة؟ قال ديل ريو-تشانونا لـ TechCrunch إن هذا على الأرجح لأن حاملي شهادات الماجستير في القانون يميلون إلى الاستقراء من البيانات التاريخية الكبيرة جدًا، مما يواجه صعوبة في استرجاع المعرفة التاريخية الأكثر غموضًا.
على سبيل المثال، سأل الباحثون GPT-4 عما إذا كان لدى مصر القديمة جيش محترف دائم خلال فترة تاريخية محددة. على الرغم من أن الإجابة الصحيحة هي لا، إلا أن ماجستير إدارة الأعمال أجاب بشكل غير صحيح بنعم. ربما يرجع هذا إلى وجود الكثير من المعلومات العامة عن الإمبراطوريات القديمة الأخرى، مثل بلاد فارس، التي كانت لديها جيوش دائمة.
قال ديل ريو-شانونا: “إذا قيل لك A وB 100 مرة، وC مرة واحدة، ثم سُئلت سؤالاً عن C، فقد تتذكر فقط A وB وتحاول الاستقراء من ذلك”.
وحدد الباحثون أيضًا اتجاهات أخرى، بما في ذلك أن أداء نموذجي OpenAI وLlama كان أسوأ في مناطق معينة مثل أفريقيا جنوب الصحراء الكبرى، مما يشير إلى وجود تحيزات محتملة في بيانات التدريب الخاصة بهم.
وقال بيتر تورشين، الذي قاد الدراسة وعضو هيئة التدريس في CSH، إن النتائج تظهر أن الحاصلين على ماجستير إدارة الأعمال ما زالوا لا يحلون محل البشر في بعض المناطق.
لكن الباحثين ما زالوا يأملون في أن يتمكن حاملو الماجستير في القانون من مساعدة المؤرخين في المستقبل. إنهم يعملون على تحسين معاييرهم من خلال تضمين المزيد من البيانات من المناطق الممثلة تمثيلا ناقصا وإضافة أسئلة أكثر تعقيدا.
“بشكل عام، في حين أن نتائجنا تسلط الضوء على المجالات التي تحتاج فيها شهادات الماجستير في القانون إلى تحسين، فإنها تسلط الضوء أيضًا على إمكانات هذه النماذج لتسهيل البحث التاريخي”، كما جاء في البحث.
Source link