ما علاقة الصواريخ بالنماذج اللغوية الكبيرة؟
حتى الآن، رأى الجميع ChatGPT واختبروا قوته. لسوء الحظ، فقد عانوا أيضًا من عيوبه، مثل الهلوسة وغيرها من الفواق البغيضة. التكنولوجيا الأساسية التي تقف وراءها قوية للغاية، ولكن من أجل التحكم بشكل صحيح في نماذج اللغات الكبيرة (LLMs)، يجب أن تكون محاطة بمجموعة من النماذج والتكاملات الأصغر الأخرى.
وباعتباري متحمسًا للصواريخ وخريجًا في مجال الطيران، فإن الصواريخ تبدو لي بمثابة تشبيه جيد هنا. لقد شاهد الجميع إطلاق الصواريخ وأعجبوا بمحركاتها الرئيسية. ومع ذلك، ما لا يدركه الكثيرون هو أن هناك صواريخ أصغر حجمًا، تسمى محركات الدفع Vernier، وهي متصلة بجانب الصاروخ.
قد تبدو هذه الدفعات بمثابة إضافات بسيطة، لكنها في الواقع توفر للصاروخ الاستقرار والقدرة على المناورة اللذين يحتاجهما بشدة. وبدون هذه الوقود الدفعي، لن تتبع الصواريخ مسارًا محددًا للغاية. في الواقع، من المؤكد أن المحركات الأكبر ستؤدي إلى تحطم الصاروخ بدون هذه المعززات.
وينطبق الشيء نفسه على نماذج اللغات الكبيرة.
قوة الجمع بين النماذج
على مر السنين، طور ممارسون الذكاء الاصطناعي نماذج تعلم آلي خاصة بمهمة محددة وربطوها معًا لأداء مهام لغوية معقدة. في Moveworks، نستفيد من نماذج التعلم الآلي المتعددة التي تؤدي مهام فريدة لتحديد ما يبحث عنه المستخدم: بدءًا من اكتشاف اللغة ووصولاً إلى التصحيح الإملائي واستخراج الكيان المسمى وتحديد الكيانات الرئيسية ونماذج القواعد الإحصائية لفهم ما يريده المستخدم. . هذا النظام قوي جدًا ويعمل بشكل جيد للغاية.
أولاً، إنه سريع للغاية وغير مكلف من الناحية الحسابية. والأهم من ذلك أن هذا النظام يمكن التحكم فيه بشكل كبير. عندما تجتمع عدة نماذج مختلفة معًا لأداء المهمة، يمكنك ملاحظة أي جزء من تلك المجموعة يفشل أو يكون أداؤه ضعيفًا. يمنحك هذا نفوذًا على النظام للتأثير على سلوكه. ومع ذلك، فهو نظام معقد.
ويأتي بعد ذلك نموذج لغة كبير، مثل GPT-4 من OpenAI.
أدخل GPT-4: مغير قواعد اللعبة
يمكن التحكم في GPT-4 عبر المطالبات المقدمة للنموذج.
هذا يعني أنه يمكنك منحه استعلام مستخدم ومطالبته بتنفيذ مهام مختلفة مقابل الاستعلام. للقيام بذلك برمجيًا، هناك أدوات، مثل Langchain، تسمح لك ببناء تطبيقات حول هذا الموضوع. لذا، في جوهر الأمر، سينتهي بك الأمر بنموذج واحد يحكمهم جميعًا.
ليس بهذه السرعة.
لا تزال LLMs مثل GPT-4 تفتقر إلى القدرة على التحكم في حالتها الحالية. ليس هناك ضمان أو إمكانية التنبؤ بأن النموذج سوف يملأ الفتحات بشكل صحيح.
هل يفهم اللغة الخاصة بعملك بشكل جيد بما يكفي ليكون موثوقًا به؟ هل يفهم متى يمكن أن يصاب بالهلوسة؟ أو ماذا لو كانت تشارك معلومات حساسة مع شخص لا ينبغي له رؤيتها؟ وفي الحالات الثلاث، الجواب هو لا.
في جوهرها، تم تصميم نماذج اللغة لتكون محركات إبداعية. يتم تدريبهم على مجموعات البيانات الضخمة من الإنترنت، مما يعني أنهم كنموذج خارج الصندوق، يقتصرون على البيانات التي تلقوها. إذا تلقوا مطالبة بناءً على شيء لم يتم تدريبهم عليه، فسوف يصابون بالهلوسة أو، اعتمادًا على النموذج، سيأخذون حريات إبداعية.
خذ على سبيل المثال العثور على رقم هاتف شخص ما في مؤسستك. يمكنك أن تسأل ChatGPT عن رقم هاتف Larry من قسم المحاسبة وقد يقول رقمًا مقنعًا مكونًا من 10 أرقام. ولكن إذا لم يتم تدريب النموذج مطلقًا على هذه المعلومات، فمن المستحيل أن يقدم النموذج إجابة دقيقة.
وينطبق الشيء نفسه على العامية الخاصة بالمنظمة. وتعد أسماء قاعات الاجتماعات مثالاً رائعًا على ذلك. لنفترض أن مكتبك في تورونتو يحتوي على غرفة مؤتمرات باسم Elvis Presley، لكنك لا تعرف مكان العثور عليها. إذا سألت ChatGPT عن مكان العثور على Elvis Presley، فقد يخبرك أنه على بعد ستة أقدام تحت الأرض بدلاً من النظر إلى خريطة مكتبك في تورونتو.
بالإضافة إلى ذلك، اعتمادًا على حجم المطالبة، تكون مكالمات GPT-4 باهظة الثمن ولها زمن استجابة أعلى بكثير. وهذا يجعلها باهظة الثمن إذا تم استخدامها بلا مبالاة.
السيطرة على قوة LLMs
تمامًا مثل الصواريخ، تمتلك الأنظمة المستندة إلى LLM محركاتها الرئيسية: نماذج فئة GPT التي توفر قدرات رائعة. ومع ذلك، لتسخير هذه القوة بشكل فعال، نحتاج إلى إحاطتها بما أحب أن أسميه نسختنا من Vernier Thrusters – وهي مجموعة من النماذج الأصغر وعمليات التكامل التي توفر التحكم وإمكانية التحقق التي تشتد الحاجة إليها.
لتجنب النتائج المضللة والمحفوفة بالمخاطر، يجب أن يصل النموذج إلى مصادر البيانات الخاصة بالشركة، مثل أنظمة معلومات الموارد البشرية وقواعد المعرفة، على سبيل المثال. يمكنك بعد ذلك إنشاء “محركات رنيه” من خلال تحسين النموذج على المستندات الداخلية، وربط واجهات برمجة التطبيقات النموذجية بعمليات البحث عن البيانات، ودمج إعدادات الأمان والأذونات الحالية – وهي فئة من التقنيات تعتبر استردادًا متزايدًا. زيادة التعافي لن تقضي على الهلوسة. لذلك قد تفكر في إضافة فئة من النماذج القادرة على التحقق من أن النتائج التي تنتجها LLMs تستند إلى حقائق وبيانات مثبتة.
وتتيح هذه النماذج التكميلية مراقبة تصور النموذج الأساسي مع إرساء حقيقي في الخصوصيات التنظيمية، وكذلك التحقق من نتائج هذه النماذج.
ومع وجود أجهزة الدفع المناسبة، يمكن للشركات إطلاق هذه الصواريخ عالية الطاقة من الأرض وتوجيهها في الاتجاه الصحيح.
عن المؤلف
فارون سينغ هو رئيس مجلس الإدارة والمؤسس المشارك لـ العمل المتحرك – أول مساعد طيار للذكاء الاصطناعي للشركة. يشرف فارون على إدارة المنتجات، وتصميم المنتجات، ونجاح العملاء، ووظائف الخدمات المهنية، وهو ملتزم بتقديم أفضل تجربة دعم ممكنة مدعومة بالذكاء الاصطناعي للشركات في جميع أنحاء العالم. حاصل على درجة الدكتوراه. وهو حاصل على درجة الدكتوراه في الهندسة وتحسين التصميم من جامعة ميريلاند، كوليدج بارك، ودرجة الماجستير في الهندسة والرياضيات التطبيقية من جامعة كاليفورنيا.
قم بالتسجيل مجانًا في insideBIGDATA النشرة الإخبارية.
انضم إلينا على تويتر: https://twitter.com/InsideBigData1
انضم إلينا على لينكد إن: https://www.linkedin.com/company/insidebigdata/
انضم إلينا على فيس بوك: https://www.facebook.com/insideBIGDATANOW