تعد مجموعات البيانات التدريبية الضخمة بمثابة البوابة لنماذج الذكاء الاصطناعي القوية، ولكنها غالبًا ما تؤدي أيضًا إلى سقوط تلك النماذج.
تنشأ التحيزات من أنماط ضارة مخبأة في مجموعات كبيرة من البيانات، مثل صور الرؤساء التنفيذيين ذوي البشرة البيضاء في مجموعة تصنيف الصور. ومن الممكن أن تكون مجموعات البيانات الكبيرة معقدة لأنها تأتي في تنسيقات غير مفهومة للنموذج – تنسيقات تحتوي على الكثير من الضوضاء والمعلومات الدخيلة.
في تقرير حديث لشركة ديلويت تحقيق ومن بين الشركات التي تتبنى الذكاء الاصطناعي، قالت 40% منها إن تحديات البيانات – بما في ذلك إعداد البيانات وتنظيفها بعناية – كانت من بين أهم المخاوف التي تعيق مبادرات الذكاء الاصطناعي الخاصة بها. منفصل إستفتاء الرآي العام لقد وجد علماء البيانات أن حوالي 45% من وقتهم يقضونه في مهام إعداد البيانات، مثل “تحميل” البيانات وتنظيفها.
يريد آري مرقص، الذي عمل في صناعة الذكاء الاصطناعي لما يقرب من عقد من الزمن، التخلص من العديد من عمليات إعداد البيانات المتعلقة بتدريب نماذج الذكاء الاصطناعي – وقد أسس شركة ناشئة للقيام بذلك.
شركة مرقس, DatalogyAIينشئ أدوات لتنظيم مجموعات البيانات تلقائيًا مثل تلك المستخدمة لتدريب مستخدمي OpenAI. ChatGPTأن جوجل تَوأَم ونماذج أخرى مثل GenAI. يمكن للمنصة تحديد البيانات الأكثر أهمية بناءً على تطبيق النموذج (مثل كتابة رسائل البريد الإلكتروني)، كما يدعي موركوس، بالإضافة إلى كيفية تعزيز مجموعة البيانات ببيانات إضافية وكيف ينبغي تجميعها أو تقسيمها إلى أجزاء أكثر قابلية للإدارة. أثناء التدريب النموذجي
قال مرقص لـ TechCrunch في مقابلة عبر البريد الإلكتروني: “العارضات هي ما يأكلنه، والنماذج هي انعكاس للبيانات التي تم تدريبهن عليها”. “ومع ذلك، ليست كل البيانات متساوية وبعض بيانات التدريب أكثر فائدة من غيرها. نماذج التدريب على البيانات الصحيحة وبالطريقة الصحيحة يمكن أن يكون لها تأثير كبير على النموذج الناتج.
مرقص الحاصل على الدكتوراه. حصل على درجة الدكتوراه في علم الأعصاب من جامعة هارفارد، وأمضى عامين في DeepMind في تطبيق تقنيات مستوحاة من علم الأعصاب لفهم نماذج الذكاء الاصطناعي وتحسينها، وأمضى خمس سنوات في مختبر Meta’s AI للكشف عن بعض الآليات الأساسية التي تقوم عليها نماذج الوظائف. جنبا إلى جنب مع المؤسسين المشاركين ماثيو ليفيت وبوجدان غزة، رئيس قسم الهندسة السابق في أمازون ومن ثم تويتر، أطلق مرقص DatologyAI بهدف تبسيط جميع أشكال تنظيم مجموعة بيانات الذكاء الاصطناعي.
وكما يشير موركوس، فإن تكوين مجموعة بيانات التدريب يؤثر تقريبًا على كل خصائص النموذج الذي تم تدريبه عليه، بدءًا من أداء النموذج في المهام وحتى حجمه وعمق التدريب، ومعرفته بالمجال. يمكن لمجموعات البيانات الأكثر كفاءة أن تقلل من وقت التدريب وتنتج نموذجًا أصغر، مما يوفر التكاليف الحسابية، في حين يمكن لمجموعات البيانات التي تتضمن مجموعة متنوعة بشكل خاص من العينات التعامل مع الطلبات الباطنية بشكل أكثر كفاءة (بشكل عام).
مع اهتمام في GenAI – الذي يحتوي على سمعة لأنها باهظة الثمن – وبأعلى مستوياتها على الإطلاق، أصبحت تكاليف تنفيذ الذكاء الاصطناعي في طليعة عقول المديرين التنفيذيين.
تختار العديد من الشركات تحسين النماذج الحالية (بما في ذلك النماذج مفتوحة المصدر) وفقًا لاحتياجاتها أو اختيار خدمات البائعين المُدارة عبر واجهات برمجة التطبيقات. لكن البعض – لأسباب تتعلق بالحوكمة والامتثال أو غير ذلك – ينشئون نماذج من البيانات المخصصة من الصفر وينفقون عشرات الآلاف أو حتى ملايين الدولارات على الحوسبة لتدريبها وتشغيلها.
وقال مرقص: “لقد قامت الشركات بجمع كميات كبيرة من البيانات وترغب في تدريب نماذج ذكاء اصطناعي متخصصة تتسم بالكفاءة وعالية الأداء والتي يمكنها تحقيق أقصى قدر من الفوائد لأعمالها”. “ومع ذلك، فإن استخدام مجموعات البيانات الضخمة هذه بفعالية أمر صعب للغاية، وإذا تم إجراؤه بشكل سيء، فإنه يؤدي إلى نماذج ذات أداء أقل جودة، وتستغرق وقتًا أطول للتدريب، و(أكبر) من اللازم.
يمكن لـ DatologyAI التوسع إلى “بيتابايت” من البيانات بأي تنسيق – سواء كانت نصية أو صور أو فيديو أو صوت أو جداول أو طرائق “غريبة” مثل علم الجينوم والجغرافيا المكانية – ويتم نشرها على البنية التحتية للعميل، إما محليًا أو عبر السحابة الخاصة الافتراضية. وهذا ما يميزه عن أدوات إعداد البيانات وتنظيمها الأخرى مثل CleanLab وLilac و صندوق التسميةواي داتا و جاليليويقول موركوس، والتي تميل إلى أن تكون أكثر محدودية في نطاق وأنواع البيانات التي يمكنها معالجتها.
تستطيع DatologyAI أيضًا تحديد “المفاهيم” ضمن مجموعة البيانات (على سبيل المثال، المفاهيم المتعلقة بتاريخ الولايات المتحدة في مجموعة تدريب روبوتات الدردشة التعليمية) الأكثر تعقيدًا وبالتالي تتطلب عينات ذات جودة أفضل، بالإضافة إلى البيانات التي يمكن أن تؤدي إلى خلق نموذج. التصرف بطريقة غير مقصودة.
وقال مرقص: “يتطلب حل (هذه المشكلات) تحديد المفاهيم تلقائيًا وتعقيدها ومدى التكرار الضروري بالفعل”. “إن تعزيز البيانات، والذي غالبًا ما يستخدم نماذج أخرى أو بيانات تركيبية، يعد أمرًا قويًا بشكل لا يصدق، ولكن يجب أن يتم بطريقة حذرة وهادفة.
السؤال هو، ما مدى فعالية تقنية DatologyAI؟ هناك أسباب للشك. لقد أظهر التاريخ أن المعالجة الآلية للبيانات لا تعمل دائمًا كما هو متوقع، بغض النظر عن مدى تعقيد الطريقة أو مدى تنوع البيانات.
LAION هي منظمة ألمانية غير ربحية تقود عددًا من مشاريع GenAI قوة لإزالة مجموعة من بيانات تدريب الذكاء الاصطناعي المنسقة خوارزميًا بعد اكتشاف أن المجموعة تحتوي على صور لاعتداء جنسي على الأطفال. وفي أماكن أخرى، أظهرت نماذج مثل ChatGPT، التي تم تدريبها على مزيج من مجموعات بيانات السمية التي تمت تصفيتها يدويًا وتلقائيًا، قدرتها على توليد محتوى سام نظرا لمطالبات محددة.
لا يوجد مفر من التنظيم اليدوي، كما يقول بعض الخبراء – على الأقل ليس إذا كنت تأمل في الحصول على نتائج جيدة من نموذج الذكاء الاصطناعي. أكبر مقدمي الخدمات الحاليين، من AWS إلى Google إلى OpenAI، الاعتماد على الفرق الخبراء البشريين و(في بعض الأحيان يتقاضون أجورا منخفضة) الشروحية لتشكيل وتحسين مجموعات البيانات التدريبية الخاصة بهم.
يؤكد موركوس على أن أدوات DatologyAI ليس المقصود منها ذلك يستبدل التنظيم اليدوي، ولكن بدلاً من ذلك يقدمون اقتراحات قد لا تخطر على بال علماء البيانات، وخاصة الاقتراحات العرضية لمشكلة تقليل حجم مجموعات بيانات التدريب. إنه شيء يشبه السلطة: كان تقليل مجموعات البيانات مع الحفاظ على أداء النموذج هو محور إحدى الدراسات. وثيقة أكاديمية شارك موركوس في تأليفه مع باحثين من جامعة ستانفورد وجامعة توبنغن في عام 2022، والذي فاز بجائزة أفضل ورقة بحثية في مؤتمر التعلم الآلي NeurIPS في ذلك العام.
قال مرقص: “إن تحديد البيانات الصحيحة على نطاق واسع أمر صعب للغاية ومشكلة بحثية متطورة”. “(نهجنا) يؤدي إلى نماذج تتدرب بشكل أسرع بشكل ملحوظ مع زيادة الأداء في الوقت نفسه في المهام النهائية.”
من الواضح أن تقنية DatologyAI كانت واعدة بما يكفي لإقناع عمالقة التكنولوجيا والذكاء الاصطناعي بالاستثمار في الجولة التأسيسية للشركة الناشئة، بما في ذلك كبير علماء الذكاء الاصطناعي في جوجل جيف دين، بقلم ميتا يان ليكون، مؤسس Quora وعضو مجلس إدارة OpenAI آدم دانجيلو وجيفري هينتون، اللذين يُنسب إليه الفضل في تطوير بعض أهم التقنيات في قلب الذكاء الاصطناعي الحديث.
كان هناك مستثمرون ملائكيون آخرون في جولة DatologyAI الأولية بقيمة 11.65 مليون دولار، بقيادة Amplify Partners بمشاركة Radical Ventures وConviction Capital وOutset Capital وQuiet Capital. ينضم المؤسسان المشاركان إيدان جوميز وإيفان تشانغ، الذكاء الاصطناعي السياقي المؤسس Douwe Kiela، ونائب رئيس Intel AI السابق Naveen Rao وJascha Sohl-Dickstein، أحد مخترعي التكنولوجيا التوليدية. نماذج الانتشار. أقل ما يمكن قوله هو أن هذه قائمة رائعة من الشخصيات البارزة في مجال الذكاء الاصطناعي، وتشير إلى أنه قد يكون هناك شيء ما وراء ادعاءات موركوس.
قال LeCun لـ TechCrunch في بيان عبر البريد الإلكتروني: “إن جودة النماذج تكون بقدر جودة البيانات التي يتم تدريبها عليها، ولكن تحديد بيانات التدريب الصحيحة بين مليارات أو مليارات الأمثلة يعد مشكلة صعبة للغاية”. “آري وفريقه في DatologyAI هم من بين خبراء العالم في هذه المشكلة، وأعتقد أن المنتج الذي يبنونه لجعل تنظيم البيانات عالية الجودة متاحًا لأي شخص يريد تدريب نموذج هو أمر بالغ الأهمية. إنه أمر حيوي للمساهمة في أداء الذكاء الاصطناعي. للجميع.”
تضم شركة DatologyAI ومقرها سان فرانسيسكو حاليًا عشرة موظفين، بما في ذلك المؤسسون المشاركون، ولكنها تخطط للتوسع إلى حوالي 25 موظفًا بحلول نهاية العام إذا حققت بعض معالم النمو.
سألت موركوس عما إذا كانت الخطوات مرتبطة باكتساب العملاء، لكنه رفض أن يقول – وعلى نحو غامض إلى حد ما، لم يكشف عن حجم قاعدة العملاء الحالية لشركة DatologyAI.
Source link