تشفير

تأتي بيانات تدريب الذكاء الاصطناعي بسعر لا تستطيع سوى شركات التكنولوجيا الكبرى تحمله

تعد البيانات جوهر أنظمة الذكاء الاصطناعي المتقدمة اليوم، ولكنها باهظة الثمن بشكل متزايد، مما يجعلها بعيدة عن متناول الجميع باستثناء شركات التكنولوجيا الأكثر ثراءً.

في العام الماضي، كتب جيمس بيتكر، الباحث في OpenAI، أ انشر على مدونتك الشخصية حول طبيعة نماذج الذكاء الاصطناعي التوليدية ومجموعات البيانات التي يتم التدريب عليها. في هذا المقال، جادل بيتكر بأن بيانات التدريب – وليس التصميم أو الهندسة المعمارية أو أي خصائص أخرى للنموذج – كانت المفتاح لأنظمة الذكاء الاصطناعي المتطورة والقادرة بشكل متزايد.

كتب بيتكر: “بعد التدريب على نفس مجموعة البيانات لفترة كافية، تتقارب جميع النماذج تقريبًا إلى نفس النقطة”.

هل بيتكر على حق؟ هل تعتبر بيانات التدريب هي المحدد الأساسي لما يمكن أن يفعله النموذج، سواء كان ذلك من خلال الإجابة على سؤال، أو رسم أيدي بشرية، أو إنشاء منظر واقعي للمدينة؟

إنه أمر معقول بالتأكيد.

الآلات الإحصائية

إن أنظمة الذكاء الاصطناعي التوليدية هي في الأساس نماذج احتمالية ــ كومة ضخمة من الإحصائيات. إنهم يخمنون، بناءً على عدد كبير من الأمثلة، ما هي البيانات التي لها أكبر “معنى” ومكان وضعها (على سبيل المثال، كلمة “go” قبل “to the market” في الجملة “I’m go to the market” “). لذلك يبدو من البديهي أنه كلما زاد عدد الأمثلة التي يجب على النموذج استخدامها، كان أداء النماذج المدربة على تلك الأمثلة أفضل.

قال كايل لو، أحد كبار الباحثين التطبيقيين في معهد ألين للذكاء الاصطناعي (AI2)، وهو منظمة غير ربحية لأبحاث الذكاء الاصطناعي، لـ TechCrunch: “يبدو أن مكاسب الأداء تأتي من البيانات، بمجرد أن يكون لديك إعداد تدريب مستقر على الأقل. “

أعطى لو مثالا على ذلك Meta’s Llama 3، قالب مولد النص تم إصداره في وقت سابق من هذا العام، والذي يتفوق على نموذج OLMo الخاص بـ AI2 على الرغم من تشابهه الكبير من الناحية المعمارية. تم التدريب على اللاما 3 بيانات أكثر بكثير من OLMoوهو ما يفسر، وفقًا للو، تفوقها على العديد من معايير الذكاء الاصطناعي الشائعة.

(سأشير هنا إلى أن المعايير المستخدمة على نطاق واسع في صناعة الذكاء الاصطناعي اليوم ليست بالضرورة أفضل مؤشر لأداء النموذجولكن خارج الاختبارات النوعية مثل اختباراتناوهذا أحد التدابير القليلة التي يجب علينا اتباعها.)

هذا لا يعني أن التدريب على مجموعات بيانات أكبر بشكل كبير هو مسار مؤكد لنماذج أفضل بشكل كبير. تعمل النماذج وفقًا لنموذج “القمامة الواردة، القمامة الخارجة”، كما يشير لو، وبالتالي فإن تنظيم البيانات وجودتها مهمان للغاية، وربما أكثر من مجرد الكمية.

وأضاف: “من الممكن أن يتفوق النموذج الصغير الذي يحتوي على بيانات مصممة بعناية على النموذج الكبير”. “على سبيل المثال، احتل طراز Falcon 180B، وهو نموذج كبير، المرتبة 63 على معيار LMSYS، في حين احتل Llama 2 13B، وهو نموذج أصغر بكثير، المرتبة 56.”

وفي مقابلة مع موقع TechCrunch في أكتوبر الماضي، قال غابرييل جوه، الباحث في OpenAI، إن التعليقات التوضيحية عالية الجودة تساهم بشكل كبير في تحسين جودة الصورة في دال-E 3نموذج الصورة النصية الخاص بـ OpenAI، مقارنة بسابقه دال-E2. وقال: “أعتقد أن هذا هو أكبر مصدر للتحسن”. “التعليقات النصية أفضل بكثير مما كانت عليه (مع DALL-E 2) – إنها غير قابلة للمقارنة حتى.”

يتم تدريب العديد من نماذج الذكاء الاصطناعي، بما في ذلك DALL-E 3 وDALL-E 2، من خلال مطالبة المعلقين البشريين بتسمية البيانات حتى يتمكن النموذج من تعلم ربط هذه التسميات بالخصائص الأخرى المرصودة لتلك البيانات. على سبيل المثال، النموذج الذي تم تغذيته بالعديد من صور القطط مع التعليقات التوضيحية لكل سلالة سوف “يتعلم” في النهاية ربط مصطلحات مثل bobtail و شعر قصير بملامحها البصرية المميزة.

سوء سلوك

يشعر الخبراء مثل لو بالقلق من أن التركيز المتزايد على مجموعات بيانات التدريب الكبيرة وعالية الجودة سيؤدي إلى تركيز تطوير الذكاء الاصطناعي بين عدد قليل من اللاعبين الذين لديهم ميزانيات تبلغ مليار دولار والذين يمكنهم تحمل تكاليف الحصول على هذه المجموعات. الابتكار الرئيسي في البيانات الاصطناعية أو قد تؤدي البنية الأساسية إلى تعطيل الوضع الراهن، ولكن لا يبدو أن أياً منهما يلوح في الأفق.

وقال لو: “بشكل عام، فإن الكيانات التي تحكم المحتوى الذي قد يكون مفيدًا لتطوير الذكاء الاصطناعي لديها حافز لتأمين وثائقها”. “ومع تشديد الوصول إلى البيانات، فإننا نبارك بشكل أساسي عددًا قليلاً من الرواد في الحصول على البيانات والارتقاء في السلم حتى لا يتمكن أي شخص آخر من الوصول إلى البيانات للحاق بها.”

في الواقع، حيث لم يؤد السباق لجمع المزيد من بيانات التدريب إلى سلوك غير أخلاقي (وربما حتى غير قانوني)، مثل التجميع السري للمحتوى المحمي بحقوق الطبع والنشر، فقد كافأ عمالقة التكنولوجيا بمال كبير للإنفاق على تراخيص البيانات.

يتم تدريب نماذج الذكاء الاصطناعي التوليدي مثل OpenAI بشكل أساسي على الصور والنصوص والصوت ومقاطع الفيديو وغيرها من البيانات – بعضها محمي بحقوق الطبع والنشر – من صفحات الويب العامة (بما في ذلك، إشكالية، تلك التي تم إنشاؤها بواسطة الذكاء الاصطناعي). تقول OpenAIs في العالم أن الاستخدام العادل يحميها من الانتقام القانوني. العديد من أصحاب الحقوق لا يوافقون على ذلك – ولكن، على الأقل في الوقت الحالي، ليس هناك الكثير الذي يمكنهم القيام به لمنع هذه الممارسة.

هناك العديد والعديد من الأمثلة على بائعي الذكاء الاصطناعي التوليدي الذين يحصلون على مجموعات ضخمة من البيانات من خلال وسائل مشبوهة من أجل تدريب نماذجهم. OpenAI سيكون يقوم بنسخ أكثر من مليون ساعة من مقاطع فيديو YouTube دون مباركة YouTube – أو موافقة المبدعين – لتشغيل نموذجه الرئيسي جي بي تي-4. قامت جوجل مؤخرًا بتوسيع شروط الخدمة الخاصة بها، جزئيًا لتتمكن من الاستفادة من مستندات جوجل العامة، ومراجعات المطاعم على خرائط جوجل، والمواد الأخرى عبر الإنترنت لمنتجات الذكاء الاصطناعي الخاصة بها. وكان ميتا قد يفكر في المخاطرة باتخاذ إجراء قانوني بسبب ذلك تدريب النماذج الخاصة بك على المحتوى المحمي بالملكية الفكرية.

وفي الوقت نفسه، تعتمد الشركات الكبيرة والصغيرة عليها فالعمال في دول العالم الثالث لا يتقاضون سوى بضعة دولارات في الساعة لإنشاء شروح لمجموعات التدريب. بعض هؤلاء الشروحيين – يعملون بواسطة الشركات الناشئة العملاقة مثل Scale AI – العمل لأيام كاملة لإكمال المهام التي تعرضهم لتصوير رسومي للعنف وإراقة الدماء دون أي فوائد أو ضمانات للعربات المستقبلية.

زيادة التكلفة

بمعنى آخر، حتى صفقات البيانات الأكثر صدقًا لا تعزز تمامًا نظامًا بيئيًا منتجًا ومنفتحًا وعادلاً للذكاء الاصطناعي.

لقد أنفقت شركة OpenAI مئات الملايين من الدولارات لترخيص المحتوى من ناشري الأخبار ومكتبات الوسائط وغيرها لتدريب نماذج الذكاء الاصطناعي الخاصة بها – وهي ميزانية أكبر بكثير من ميزانية معظم مجموعات البحث الأكاديمية والمنظمات غير الربحية والشركات الناشئة. ذهبت ميتا إلى حد التفكير في الاستحواذ على الناشر Simon & Schuster للحصول على حقوق مقتطفات من الكتب الإلكترونية (في النهاية، باعت Simon & Schuster لشركة الأسهم الخاصة KKR مقابل 1.62 مليار دولار في عام 2023).

بينما من المتوقع أن يشهد سوق بيانات التدريب على الذكاء الاصطناعي ذلك ينمو فمن نحو 2.5 مليار دولار اليوم إلى ما يقرب من 30 مليار دولار في غضون عقد من الزمان، يسارع الوسطاء ومنصات البيانات إلى فرض أعلى سعر ــ وفي بعض الحالات بسبب اعتراضات قواعد مستخدميهم.

مكتبة الوسائط Shutterstock لديها حبر صفقات مع بائعي الذكاء الاصطناعي تتراوح قيمتها بين 25 مليون دولار إلى 50 مليون دولار، في حين أن Reddit شكاوي بعد أن كسبت مئات الملايين من ترخيص البيانات لمؤسسات مثل Google وOpenAI. عدد قليل من المنصات التي تحتوي على بيانات وفيرة تراكمت بشكل عضوي على مر السنين ليس يبدو أن الصفقات الموقعة مع مطوري الذكاء الاصطناعي المبدعين – من Photobucket إلى Tumblr إلى موقع Stack Overflow للأسئلة والأجوبة.

هذه هي بيانات المنصات المعروضة للبيع – على الأقل اعتمادًا على الحجج القانونية التي تعتقد بها. ولكن في معظم الحالات، لا يحصل المستخدمون على سنت واحد من الربح. وهو يضر بمجتمع أبحاث الذكاء الاصطناعي الأوسع.

وقال لو: “لن يتمكن اللاعبون الصغار من تحمل تكاليف تراخيص البيانات هذه، وبالتالي لن يتمكنوا من تطوير أو دراسة نماذج الذكاء الاصطناعي”. “أخشى أن يؤدي هذا إلى عدم وجود مراجعة مستقلة لممارسات تطوير الذكاء الاصطناعي. »

الجهود المستقلة

إذا كان هناك شعاع من أشعة الشمس في الظلام، فهو الجهود القليلة المستقلة وغير الربحية التي تهدف إلى إنشاء مجموعات بيانات ضخمة يمكن لأي شخص استخدامها لتدريب نموذج الذكاء الاصطناعي التوليدي.

تعمل EleutherAI، وهي مجموعة بحثية غير ربحية بدأت كمجموعة Discord الجماعية في عام 2020، مع جامعة تورنتو وAI2 وباحثين مستقلين لإنشاء The Pile v2، وهي مجموعة من مليارات المقاطع النصية مصدرها بشكل أساسي من المجال العام . .

في أبريل، أصدرت شركة Hugging Face الناشئة للذكاء الاصطناعي FineWeb، وهي نسخة منقحة من Common Crawl – مجموعة البيانات التي تحمل نفس الاسم والتي تحتفظ بها منظمة Common Crawl غير الربحية، والتي تتكون من مليارات ومليارات من صفحات الويب – والتي، وفقًا لشركة Hugging Face، تعمل على تحسين أداء النموذج في العديد من المعايير .

بعض الجهود المبذولة لإطلاق مجموعات بيانات التدريب المفتوحة، مثل مجموعات الصور الخاصة بمجموعة LAION، واجهت حقوق الطبع والنشر وخصوصية البيانات ومشكلات أخرى. تحديات أخلاقية وقانونية خطيرة بنفس القدر. لكن بعض أمناء البيانات الأكثر تفانيًا ملتزمون بعمل أفضل. على سبيل المثال، يقوم Pile v2 بإزالة المواد المحمية بحقوق الطبع والنشر التي بها مشكلات والموجودة في مجموعة البيانات السابقة لها، The Pile.

والسؤال هو ما إذا كان أي من هذه الجهود المفتوحة يمكن أن يأمل في مواكبة شركات التكنولوجيا الكبرى. وما دام جمع البيانات ومعالجتها يظل مسألة تتعلق بالموارد، فإن الإجابة ربما تكون لا ــ على الأقل ليس قبل أن يحدث تقدم بحثي يمهد الطريق أمام الجميع.


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى