تقنية

يقول تقرير جديد إن أفضل نماذج الذكاء الاصطناعي يمكن كسر حمايتها والتلاعب بها بسهولة


منظمة العفو الدولية النماذج دائما من السهل التعامل مع الأهداف والهجمات، خاصة إذا سألتهم بلطف.

أ تقرير جديد من معهد سلامة الذكاء الاصطناعي الجديد في المملكة المتحدة، وجد أن أربعة من أكبر نماذج اللغات الموسعة المتاحة للجمهور (LLMs) كانت معرضة بشدة لكسر الحماية، أو عملية خداع نموذج الذكاء الاصطناعي لتجاهل الضمانات التي تحد من الاستجابات الضارة.

وكتب المعهد: “يعمل مطورو LLM على تحسين النماذج لتكون آمنة للاستخدام العام من خلال تدريبهم على تجنب المخرجات غير القانونية أو السامة أو الصريحة”. “ومع ذلك، فقد وجد الباحثون أن هذه الإجراءات الوقائية يمكن التغلب عليها في كثير من الأحيان من خلال هجمات بسيطة نسبيًا. وكمثال توضيحي، يمكن للمستخدم أن يطلب من النظام أن يبدأ استجابته بكلمات تشير إلى الامتثال للطلب الضار، مثل “بالتأكيد، أنا” أنا سعيد بالمساعدة.””

استخدم الباحثون مطالبات تتوافق مع الاختبارات القياسية القياسية للصناعة، لكنهم وجدوا أن بعض نماذج الذكاء الاصطناعي لا تحتاج حتى إلى كسر الحماية لإنتاج استجابات دون اتصال بالإنترنت. عند استخدام هجمات محددة لكسر الحماية، امتثل كل نموذج مرة واحدة على الأقل في خمس محاولات. وبشكل عام، قدمت ثلاثة من النماذج استجابات للمطالبات المضللة بنسبة 100% تقريبًا من الوقت.

وخلص المعهد إلى أن “جميع حاملي شهادة الماجستير في القانون الذين تم اختبارهم ما زالوا معرضين بشدة لعمليات كسر الحماية الأساسية”. “بل إن البعض قد يقدم نتائج ضارة دون محاولات محددة للتحايل على تدابير الحماية.”

سرعة الضوء قابلة للسحق

قام الاستطلاع أيضًا بتقييم قدرات وكلاء LLM، أو نماذج الذكاء الاصطناعي المستخدمة لأداء مهام محددة، لتنفيذ تقنيات الهجوم السيبراني الأساسية. كان العديد من حاملي شهادات الماجستير قادرين على حل ما أسماه المعهد مشاكل القرصنة “على مستوى المدرسة الثانوية”، لكن القليل منهم كان قادرًا على أداء إجراءات أكثر تعقيدًا “على مستوى الكلية”.

لا تكشف الدراسة عن LLMs التي تم اختبارها.

يظل أمن الذكاء الاصطناعي مصدر قلق كبير في عام 2024

في الأسبوع الماضي، ذكرت قناة CNBC أن OpenAI كان كذلك وحل فريق الأمن الداخلي التابع لها تم تكليفه باستكشاف المخاطر طويلة المدى للذكاء الاصطناعي، والمعروفة باسم فريق Superalignment. وكانت مبادرة الأربع سنوات إعلان وفي العام الماضي، تعهدت شركة الذكاء الاصطناعي العملاقة باستخدام 20% من قوتها الحاسوبية “لمواءمة” تقدم الذكاء الاصطناعي مع الأهداف البشرية.

وكتب OpenAI في ذلك الوقت: “سيكون الذكاء الفائق التكنولوجيا الأكثر تأثيرًا التي اخترعتها البشرية على الإطلاق، ويمكن أن يساعدنا في حل العديد من أهم المشكلات في العالم”. “لكن القوة الهائلة للذكاء الفائق يمكن أن تكون خطيرة للغاية وتؤدي إلى إضعاف البشرية أو حتى انقراضها.”

واجهت الشركة اهتمامًا متجددًا بعد رحيل المؤسس المشارك لـ OpenAI في مايو. ايليا سوتسكيفر و ال استقالة علنية لمدير أمنها، جان ليك، الذي قال إنه وصل إلى “نقطة الانهيار” فيما يتعلق بالأولويات الأمنية لـ AGI الخاصة بـ OpenAI. قاد Sutskever و Leike فريق Superalignment.

في 18 مايو، سام ألتمان، الرئيس التنفيذي لشركة OpenAI، وجريج بروكمان، الرئيس والمؤسس المشارك رد على الاستقالات ” وتزايد القلق العام، حيث كتب: “لقد وضعنا الأسس اللازمة للنشر الآمن للأنظمة ذات الكفاءة المتزايدة. إن معرفة كيفية جعل التكنولوجيا الجديدة آمنة لأول مرة ليس بالأمر السهل.




Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى