كم عدد نماذج الذكاء الاصطناعي كثيرة جدًا؟ يعتمد الأمر على الطريقة التي تنظر بها إلى الأمر…ولكن ربما يكون 10 مرات في الأسبوع أكثر من اللازم. هذا هو عدد ما لدينا في الأيام القليلة الماضية، أو نحو ذلك، ومن الصعب بشكل متزايد تحديد ما إذا كانت هذه النماذج يمكن مقارنتها ببعضها البعض وكيف… إذا كان من الممكن أن نبدأ. إذن، ما الغرض منه؟
نحن في وقت غريب من تطور الذكاء الاصطناعي، على الرغم من أنه كان غريبًا جدًا طوال الوقت. نحن نشهد انتشارًا للنماذج، الكبيرة والصغيرة، بدءًا من المطورين المتخصصين وحتى المطورين الكبار ذوي التمويل الجيد.
دعونا نستعرض قائمة هذا الأسبوع، أليس كذلك؟ حاولت أن أختصر قدر الإمكان ما يميز كل نموذج.
- لاما-3: آخر نموذج رئيسي للغة الرئيسية “المفتوحة” لـ Meta. (مصطلح “مفتوح” محل خلاف حاليًا، ولكن هذا المشروع يستخدم على نطاق واسع من قبل المجتمع.)
- ميسترال 8×22: نموذج “مزيج من الخبراء” فضفاض إلى حد ما من شركة فرنسية كانت مترددة في الابتعاد عن الانفتاح الذي تبنته ذات يوم.
- بث مستقر 3 توربو: ترقية SD3 للذهاب مع واجهة برمجة تطبيقات الاستقرار المفتوحة الجديدة. يعد استعارة كلمة “turbo” من تسميات نماذج OpenAI أمرًا غريبًا بعض الشيء، لكنه لا بأس به.
- أدوبي أكروبات مساعد الذكاء الاصطناعي: “تحدث إلى مستنداتك” من وثيقة الغوريلا التي يبلغ وزنها 800 رطل. أنا متأكد من أنه في الغالب أ ومع ذلك، فإن غلاف ChatGPT.
- ريكا كور: من فريق صغير كان يعمل سابقًا لدى شركة Big AI، وهو نموذج متعدد الوسائط تم بناؤه من الصفر وهو على الأقل منافس اسميًا للكلاب الكبيرة.
- تعريف2: نموذج متعدد الوسائط أكثر انفتاحًا، مبني على نماذج حديثة وأصغر حجمًا من Mistral وGoogle.
- أولمو-1.7-7ب: نسخة أكبر من AI2 LLM، من بين أكثر الإصدارات انفتاحًا في السوق، ونقطة انطلاق نحو نموذج مقياس 70B مستقبلي.
- بايل-T5: نسخة قديمة موثوقة T5 تم تنقيح النموذج في قاعدة بيانات كود Pile. نفس T5 الذي تعرفه وتحبه، ولكن مع ترميز أفضل.
- تماسك البوصلة: “نموذج التكامل” (إذا كنت لا تعرف بالفعل، فلا تقلق) يركز على دمج أنواع بيانات متعددة لتغطية المزيد من حالات الاستخدام.
- تخيل فلاش: أحدث نموذج لتوليد الصور من Meta، مع الاستفادة من طريقة التقطير الجديدة للتسريع انتشار دون المساس بالجودة أكثر من اللازم.
- غير محدود: “ذكاء اصطناعي مخصص مدعوم بما رأيته أو قلته أو سمعته. أناإنه تطبيق ويب وتطبيق Mac وتطبيق Windows وجهاز محمول. 😬
وهذا يساوي 11، كما تم الإعلان عن واحد عندما كتبت هذا. ولنكن واضحين، إنه كذلك لا تم إصدار جميع النماذج أو معاينتها هذا الأسبوع! هذه هي فقط تلك التي رأيناها وناقشناها. إذا خففنا شروط التضمين قليلاً، فسيكون هناك العشرات: النماذج الحالية المحسّنة، والمجموعات مثل Idefics 2، والنماذج التجريبية أو المتخصصة، وما إلى ذلك. ولا ننسى أدوات البناء الجديدة لهذا الأسبوع (الشعلة) ومحاربة (الجليد 2.0) الذكاء الاصطناعي التوليدي!
ما رأيك في هذا الانهيار الذي لا نهاية له؟ لأنه في الأسبوع المقبل، على الرغم من أنه قد لا يحتوي على الإصدارات العشرة أو العشرين التي رأيناها في الإصدار السابق، فمن المؤكد أنه سيحتوي على خمسة أو ستة على الأقل من المستويات المذكورة أعلاه. لا يمكننا “فحص” كل منهم. فكيف يمكننا مساعدتكم، أنتم قرائنا، على فهم ومتابعة كل هذه الأمور؟
حسنا…الحقيقة هي لا يحتاج اتبع، ولا يكاد أي شخص آخر سواء. لقد حدث تحول في مجال الذكاء الاصطناعي: فقد تطورت بعض النماذج، مثل ChatGPT وGemini، إلى منصات ويب كاملة تغطي حالات استخدام ونقاط نهاية متعددة. نماذج اللغات الرئيسية الأخرى مثل LLaMa أو OLMo، على الرغم من أنها من الناحية الفنية تشترك في بنية أساسية، إلا أنها لا تؤدي في الواقع نفس الدور. من المفترض أن تعيش في الخلفية كخدمة أو مكون، وليس في المقدمة كعلامة تجارية.
لقد كان هناك خلط متعمد بين هذين الأمرين، لأن مطوري النماذج يريدون استعارة بعض الضجة التي نميل إلى ربطها بالإصدارات الرئيسية لمنصات الذكاء الاصطناعي مثل GPT-4V أو الجوزاء الترا. الجميع يريد منك أن تعتقد أن إطلاق سراحهم مهم. وعلى الرغم من أنه من المهم على الأرجح شخص ماأن شخصًا ما ليس أنت بالتأكيد.
فكر في الأمر بمعنى فئة أخرى كبيرة ومتنوعة مثل السيارات. عندما تم اختراعها، كنت قد اشتريت للتو “سيارة”. ثم، بعد ذلك بقليل، يمكنك الاختيار بين سيارة كبيرة وسيارة صغيرة وجرار. في الوقت الحاضر، يتم إطلاق مئات السيارات كل عام، لكن ربما لا تحتاج إلى معرفة واحدة من كل عشرة، لأن تسعة من كل عشرة ليست سيارة تحتاجها، أو حتى سيارة بالمعنى الذي تسمعه. . نحن ننتقل من عصر الذكاء الاصطناعي الكبير/الصغير/الجرار إلى عصر الانتشار، وحتى متخصصي الذكاء الاصطناعي لا يمكنهم مواكبة واختبار كل نموذج يتم طرحه.
الجانب الآخر من هذه القصة هو أننا كنا بالفعل في هذه المرحلة قبل وقت طويل من إصدار ChatGPT والنماذج الرئيسية الأخرى. كان عدد الأشخاص الذين قرأوا عنها أقل بكثير منذ 7 أو 8 سنوات، لكننا تحدثنا عنها رغم ذلك لأنه من الواضح أنها كانت تقنية تنتظر لحظتها الحاسمة – والتي وصلت في الوقت المناسب. تم نشر الأوراق والنماذج والأبحاث باستمرار، وكانت المؤتمرات مثل SIGGRAPH وNeurIPS مليئة بمهندسي التعلم الآلي الذين يقومون بمقارنة الملاحظات والبناء على عمل بعضهم البعض. إليكم قصة الفهم البصري التي كتبتها في عام 2011!
ويستمر هذا النشاط كل يوم. ولكن نظرًا لأن الذكاء الاصطناعي أصبح عملاً تجاريًا كبيرًا – يمكن القول إنه الأكبر في مجال التكنولوجيا في الوقت الحالي – فقد اكتسبت هذه التطورات وزنًا أكبر قليلاً، حيث أصبح الناس فضوليين بشأن ما إذا كان أحد هذه التطورات يمكن أن يمثل قفزة كبيرة للأمام من ChatGPT مثلما كان ChatGPT من أسلافه.
الحقيقة البسيطة هي أن أيًا من هذه النماذج لن يحقق مثل هذا التقدم، نظرًا لأن تقدم OpenAI يعتمد على تغيير جوهري في بنية التعلم الآلي التي تبنتها الآن كل شركة أخرى والتي لم يتم استبدالها. التحسينات الإضافية مثل نقطة أو نقطتين أفضل على معيار تركيبي، أو لغة أو صور أكثر إقناعًا قليلاً، هي كل ما نأمله في الوقت الحالي.
فهل هذا يعني أن أيا من هذه النماذج لا يهم؟ بالتأكيد. لا يمكنك الترقية من 2.0 إلى 3.0 بدون 2.1، 2.2، 2.2.1، إلخ. – وهذا ما يجتهد فيه الباحثون والمهندسون. وفي بعض الأحيان تكون هذه التطورات مهمة، حيث تصحح أوجه القصور الخطيرة أو تكشف عن نقاط ضعف غير متوقعة. نحن نحاول تغطية أكثرها إثارة للاهتمام، ولكن هذا ليس سوى جزء صغير من العدد الإجمالي. نحن نعمل حاليًا على مقال يجمع جميع النماذج التي نعتقد أن الأشخاص الفضوليين لتعلم الآلة يجب أن يعرفوها، وهي في حدود اثنتي عشرة.
لا تقلق: عندما تحدث مشكلة كبيرة، ستعرف عنها، وليس فقط لأن TechCrunch يغطيها. وسيكون هذا واضحا بالنسبة لك كما هو بالنسبة لنا.