لقد ولدت نماذج اللغات الكبيرة (LLMs) كفاءات هائلة وفتحت تيارات جديدة من الابتكار لمجموعة واسعة من الشركات، ولكنها أثارت أيضًا مخاوف كبيرة تتعلق بالخصوصية والأمان فيما يتعلق باستخدامها. إن النتائج غير المرغوب فيها، وسوء التنفيذ في العمليات التجارية، وأمن المعلومات، وغير ذلك الكثير، كلها مخاوف مشروعة. على الرغم من أن نتائج هذه النماذج مثيرة للقلق، فإن الجوهر الحقيقي للمشكلة يكمن في المراحل الأولية لتطوير نموذج LLM وإدخال البيانات.
إن ضمان بقاء البيانات آمنة ومحمية يعتمد على بناء أساس قوي يضع الأمان في المقام الأول. وبعبارة أخرى، ينبغي النظر في الأمن في مرحلة البناء والدخول في تطوير نموذج LLM، وليس في مرحلة الخروج.
دور نماذج LLMOps
يبدأ النجاح بالعناصر الأساسية لنموذج الذكاء الاصطناعي، وهنا تكمن أهمية LLMOps. إن تطوير إطار عمل منظم يقوم بتخزين البيانات ومعالجتها بشكل آمن على نطاق واسع وقادر على استخراج البيانات بشكل آمن من مواقع أخرى يضمن عدم قدرة النماذج اللغوية على إساءة تفسير المعلومات أو الكشف عن البيانات السرية أو توليد استجابات يحتمل أن تكون خطرة.
من الحقائق المعروفة أن إنشاء تطبيق LLM بدون نموذج تشغيلي محدد جيدًا هو أمر سهل نسبيًا، ولكن يجب أن يكون هذا بمثابة تحذير للشركات. في غياب نموذج تشغيل مدروس ومنظم، يصبح من الصعب بسرعة تصميم البنية التحتية التي تدعم تطبيقات LLM والذكاء الاصطناعي وصيانتها في الإنتاج. ومن غير المستغرب أن تبدأ الأمور على نحو خاطئ هنا: حيث يتم استخدام البيانات السيئة وفضحها، وتصبح النماذج مارقة.
وبالمثل، فإن هذه النتائج سرعان ما تصبح بالية حيث تصبح عملية إعادة التدريب والتكيف المستمر معركة شاقة. يتم تدريب نماذج LLM من خلال تنزيلات البيانات الثابتة، والمعروفة أيضًا باسم البيانات الدفعية، والتي توفر لقطة واحدة من البيانات خلال فترة زمنية معينة. يتم بعد ذلك اختراق دقة مخرجات نموذج LLM إذا تغيرت البيانات حتى تحميل الدفعة التالية عندما يتم تحديث نقاط البيانات ذات الصلة، مما يجعل التطبيق غير مناسب للتطبيقات في الوقت الفعلي.
وبدون الصيانة والتحديثات المناسبة، من المرجح أن تفسر هذه النماذج البيانات بكل الطرق الممكنة، مما يؤدي إلى نتائج متحيزة بسبب تصورها للماضي الذي لم يتم تحديثه. على عكس البشر القادرين على التفكير النقدي، وحل المشكلات، وتحديث المعرفة في الوقت الفعلي، فإن الآلات التي تعتمد على البيانات المجمعة لا يمكنها أن تفهم تلقائيًا أين تكون نتائجها غير صحيحة أو مشكوك فيها. هناك بعض التقنيات التي تساعد نماذج LLM على الوصول إلى تدفقات البيانات وتفسيرها في الوقت الفعلي لتجنب هذه المشكلة، ولكن حتى تستخدم جميع نماذج LLM هذه التكنولوجيا كمعيار، تظل مخاطر نماذج LLM القديمة قائمة.
عندما نقتصر على البيانات، فإن ما نضعه في نماذج LLM هو الخطوة الأولى والأكثر أهمية لضمان الأمان، لأن نموذج LLM آمن وفعال فقط مثل البيانات التي يتم تدريبه عليها. على سبيل المثال، قد يؤدي إدخال بيانات عشوائية في نموذج دون تقييمها بشكل صحيح إلى فشل أي عمل منذ البداية. وبالتالي، يبدأ الأمان ليس فقط في إطار نموذج LLM، ولكن أيضًا في خطوط أنابيب البيانات المدروسة بشكل صحيح.
التحضير للنجاح
يجب أن تركز الشركات على عدة عناصر لضمان وضع الخصوصية والأمان في طليعة أي تطوير لـ LLM. على سبيل المثال، يجب أن يأخذ الأساس المناسب للأمان بعين الاعتبار التسجيل والتوثيق المناسب لمدخلات النموذج وكيفية وصول ماجستير إدارة الأعمال إلى نتيجة. وهذا يساعد الشركات على تحديد ما تغير داخل النموذج والإبلاغ عنه – ونتائجه – ولماذا.
وبالمثل، يعد تصنيف البيانات وإخفاء هويتها وتشفيرها جانبًا أساسيًا لأمن LLM، وينطبق الشيء نفسه على أي نوع من النماذج التكنولوجية التي تقيم المعلومات لتحديد النتيجة. ومع ذلك، يجب على العديد من نماذج LLM سحب البيانات من موقعها الأصلي وتغذيتها من خلال أنظمتها الخاصة، مما قد يعرض سرية تلك المعلومات للخطر – خذ ChatGPT، على سبيل المثال. تسبب الاختراق الضخم لبيانات OpenAI هذا الصيف في إصابة العديد من المؤسسات بالذعر، حيث أصبحت المعلومات الحساسة المخزنة من قبل الموظفين الذين يستخدمون ChatGPT الآن في خطر كبير.
ونتيجة لذلك، يجب على الشركات ليس فقط اعتماد التكتيكات المناسبة لتخزين البيانات وإخفاء الهوية، ولكن أيضًا تنفيذ تقنيات LLMOps الإضافية التي تساعد الشركات على الاستفادة من نماذج LLM دون حذف بياناتها الخاصة من مصدرها الداخلي، مع فهم الانحرافات المحتملة للنماذج. تعد الاستفادة من نماذج LLM التي يمكن تغذية خطوط البيانات المجمعة وفي الوقت الفعلي من مصادر المعلومات الخارجية واحدة من أقوى الطرق لاستخدام الذكاء الاصطناعي التوليدي، ولكنها أيضًا لحماية البيانات الحساسة من فشل النماذج العرضية.
وبطبيعة الحال، فإن أي استخدام مسؤول لنموذج ماجستير إدارة الأعمال ينطوي على اعتبارات أخلاقية في جوهره ــ وكلها ينبغي أن تدعم كل قرار عندما يتعلق الأمر بدمج مثل هذه النماذج. ومع وجود إرشادات واضحة فيما يتعلق باستخدام ماجستير إدارة الأعمال والاعتماد المسؤول للتقنيات المتقدمة مثل الذكاء الاصطناعي، ينبغي بناء هذه النماذج بطريقة تقلل من التحيز والمساءلة في عملية صنع القرار. وينطبق الشيء نفسه على ضمان شفافية النموذج ومعرفة السبب وراء كل قرار يتخذه نموذج لغوي كبير.
السلامة اولا
لا توجد أبدًا طريقة “سهلة” لتنفيذ LLMs، وهذا هو بالضبط ما ينبغي أن يكون عليه الحال. إن التطوير المدروس بعناية لهذه النماذج والتركيز على البيانات وأدوات التدريب المستخدمة لتشكيل نتائجها يجب أن يكون محور اهتمام أي شركة تسعى إلى تنفيذها.
إن تشكيل أسس أمن LLM هو مسؤولية كل من لديه الرغبة في بنائها. إن إلقاء اللوم على نتائج النموذج ومحاولة وضع ضمادة على البنية التحتية الضعيفة لـ LLMOps لن يسهم بشكل إيجابي في التطوير الآمن والأخلاقي لأدوات الذكاء الاصطناعي الجديدة، وهو أمر يجب على الجميع السعي إلى معالجته.
عن المؤلف
جان تشوروفسكي هو مدير التكنولوجيا التنفيذي في شركة AI طريق
قم بالتسجيل مجانًا في insideBIGDATA النشرة الإخبارية.
انضم إلينا على تويتر: https://twitter.com/InsideBigData1
انضم إلينا على لينكد إن: https://www.linkedin.com/company/insidebigdata/
انضم إلينا على فيس بوك: https://www.facebook.com/insideBIGDATANOW