يمكن لنموذج Gemini الجديد من Google تحليل مقطع فيديو مدته ساعة، لكن القليل من الأشخاص يمكنهم استخدامه

Maywiltech17/02/2024

0 17 5 دقائق

في أكتوبر الماضي، ورقة بحثية نشرت من قبل عالم بيانات جوجل، اقترح ماتي زاهاريا، مدير التكنولوجيا في Databricks والبروفيسور بيتر أبيل من جامعة كاليفورنيا في بيركلي، طريقة للسماح بنماذج GenAI، أي نماذج مشابهة لتلك الخاصة بـ OpenAI. جي بي تي-4 و ChatGPT – لاستيعاب بيانات أكثر بكثير مما كان ممكنًا في السابق. في الدراسة، أظهر المؤلفون المشاركون أنه من خلال إزالة عنق الزجاجة الرئيسي في الذاكرة لنماذج الذكاء الاصطناعي، يمكنهم تمكين النماذج من معالجة ملايين الكلمات بدلاً من مئات الآلاف – وهو الحد الأقصى للنماذج الأكثر كفاءة في ذلك الوقت.

يبدو أن أبحاث الذكاء الاصطناعي تتطور بسرعة.

أعلنت Google اليوم عن إصدار Gemini 1.5 Pro، أحدث عضو في مجموعتها. تَوأَم عائلة نماذج GenAI. تم تصميم Gemini 1.5 Pro ليحل محل Gemini 1.0 Pro (المعروف سابقًا باسم “Gemini Pro 1.0” لأسباب معروفة فقط لذراع التسويق المتاهة لشركة Google)، وقد تم تحسين Gemini 1.5 Pro في عدد من المجالات مقارنة بسابقه، وربما معظمها. بشكل كبير في كمية البيانات التي يمكنه معالجتها.

يمكن لـ Gemini 1.5 Pro استيعاب ما يقرب من 700000 كلمة أو ما يقرب من 30000 سطر من التعليمات البرمجية، وهو ما يعادل 35 ضعف الكمية التي يستطيع Gemini 1.0 Pro التعامل معها. و- كون النموذج متعدد الوسائط – فهو لا يقتصر على النص. يمكن لـ Gemini 1.5 Pro استيعاب ما يصل إلى 11 ساعة من الصوت أو ساعة واحدة من الفيديو بمجموعة متنوعة من اللغات المختلفة.

اعتمادات الصورة: جوجل

لكي نكون واضحين، هذا هو الحد الأعلى.

يمكن لإصدار Gemini 1.5 Pro المتوفر بدءًا من اليوم لمعظم المطورين والعملاء (في معاينة محدودة) معالجة حوالي 100000 كلمة فقط في المرة الواحدة. تطلق Google على Gemini 1.5 Pro كثيف البيانات اسم “التجريبي”، مما يسمح فقط للمطورين المعتمدين بموجب معاينة خاصة بتجريبه من خلال أداة مطور GenAI الخاصة بالشركة. استوديو الذكاء الاصطناعي. العديد من العملاء يستخدمون Google قمة الذكاء الاصطناعي تتمتع المنصة أيضًا بإمكانية الوصول إلى Gemini 1.5 Pro كثيف البيانات – ولكن ليس كلها.

ومع ذلك، أشاد أوريول فينيالس، نائب رئيس الأبحاث في Google DeepMind، بالتجربة باعتبارها ناجحة.

“عندما تتفاعل مع نماذج (GenAI)، فإن المعلومات التي تقوم بإدخالها واستخراجها تصبح هي السياق، وكلما كانت أسئلتك وتفاعلاتك أطول وأكثر تعقيدًا، كلما زاد السياق الذي يحتاج النموذج إلى التعامل معه. “” قال فينيالس خلال مؤتمر صحفي. “لقد فتحنا سياقًا طويلًا بطريقة هائلة جدًا.”

سياق عظيم

يشير سياق النموذج، أو النافذة المنبثقة، إلى بيانات الإدخال (على سبيل المثال، النص) التي يأخذها النموذج في الاعتبار قبل إنشاء المخرجات (على سبيل المثال، نص إضافي). سؤال بسيط: “من فاز في الانتخابات الرئاسية الأمريكية لعام 2020؟” – يمكن أن يكون بمثابة سياق، تمامًا مثل سيناريو الفيلم أو البريد الإلكتروني أو الكتاب الإلكتروني.

تميل النماذج ذات النوافذ المنبثقة الصغيرة إلى “نسيان” محتوى المحادثات الحديثة جدًا، مما يؤدي إلى خروجها عن الموضوع – غالبًا بطرق إشكالية. وهذا ليس هو الحال بالضرورة مع النماذج ذات السياقات الموسعة. وكميزة إضافية أخرى، يمكن لنماذج السياق الواسع أن تلتقط بشكل أفضل التدفق السردي للبيانات التي تدمجها وتولد استجابات أكثر ثراءً من حيث السياق – على الأقل من الناحية النظرية.

كانت هناك محاولات وتجارب أخرى على النماذج ذات النوافذ المنبثقة الكبيرة بشكل غير معتاد.

البدء بالذكاء الاصطناعي السحر المطالبات في الصيف الماضي لتطوير نموذج لغة كبير (LLM) مع نافذة منبثقة تضم 5 ملايين رمز. اثنين أوراق على مدار العام الماضي، يبدو أن تصميمات النماذج التفصيلية قادرة على التوسع إلى مليون رمز مميز – وأكثر من ذلك. (“الرموز” هي أجزاء مقسمة من البيانات الأولية، مثل المقاطع “مروحة”، و”كومة”، و”علامة” في كلمة “رائع”.) ومؤخرًا، توصلت مجموعة من العلماء من ميتا، ومعهد ماساتشوستس للتكنولوجيا، وكارنيجي ميلون وضعت اِصطِلاحِيّ ويقولون إن هذا يزيل تمامًا القيود المفروضة على حجم نافذة سياق النموذج.

لكن جوجل هي أول من قدم تجاريًا نموذجًا بنافذة منبثقة بهذا الحجم، يهزم 200000 رمز منبثق من القائد السابق Anthropic – إذا كانت المعاينة الخاصة متاحة تجاريًا.

اعتمادات الصورة: جوجل

الحد الأقصى للنافذة المنبثقة لـ Gemini 1.5 Pro هو مليون رمز، والإصدار الأكثر توفرًا من النموذج يحتوي على نافذة منبثقة تبلغ 128000 رمز، وهو نفس OpenAI. جي بي تي-4 توربو.

إذًا ما الذي يمكن تحقيقه باستخدام مليون رمز منبثق؟ تعد Google بالكثير من الأشياء – مثل تحليل مكتبة الأكواد البرمجية بأكملها، و”الاستدلال” بشأن المستندات الطويلة مثل العقود، وإجراء محادثات طويلة باستخدام برنامج الدردشة الآلي، وتحليل محتوى الفيديو ومقارنته.

خلال المؤتمر الصحفي، عرضت Google عرضين تجريبيين مسجلين مسبقًا لـ Gemini 1.5 Pro مع تمكين النافذة المنبثقة للمليون رمز.

في البداية، طلب المتظاهر من برنامج Gemini 1.5 Pro البحث في نص البث التلفزيوني للهبوط على سطح القمر لمركبة أبولو 11 – وهو حوالي 402 صفحة – بحثًا عن اقتباسات تحتوي على نكات، ثم العثور على مشهد في البرنامج التلفزيوني يشبه رسمًا بالقلم الرصاص. . وفي الثانية، طلبت المتظاهرة من العارضة البحث عن مشاهد من فيلم “Sherlock Jr.”، وهو فيلم باستر كيتون، بناءً على الأوصاف ورسم تخطيطي آخر.

اعتمادات الصورة: جوجل

أكمل Gemini 1.5 Pro جميع المهام المطلوبة منه بنجاح، ولكن ليس بسرعة كبيرة. استغرقت معالجة كل طلب ما بين 20 ثانية ودقيقة تقريبًا، وهو وقت أطول بكثير من متوسط طلب ChatGPT، على سبيل المثال.

اعتمادات الصورة: جوجل

يقول فينيالس إن زمن الوصول سيتحسن مع تحسين النموذج. وتقوم الشركة بالفعل باختبار إصدار Gemini 1.5 Pro مع 10 مليون توكينز نافذة منبثقة.

وقال: “إن جانب الكمون (شيء) نعمل على تحسينه – فهو لا يزال في المرحلة التجريبية، في مرحلة البحث”. “لذلك أود أن أقول إن هذه المشكلات موجودة كما هو الحال مع أي نموذج آخر.”

أنا شخصياً لست متأكدًا من أن مثل هذا الكمون المنخفض يجذب العديد من الأشخاص – ناهيك عن العملاء الذين يدفعون. إن الاضطرار إلى الانتظار دقائق في كل مرة للبحث في مقطع فيديو لا يبدو أمرًا ممتعًا – أو قابلاً للتوسع على المدى القصير. وأنا أشعر بالقلق بشأن كيفية ظهور زمن الاستجابة في التطبيقات الأخرى، مثل محادثات chatbot وتحليل قاعدة التعليمات البرمجية. لم يقل فينيالس ذلك – وهو ما لا يوحي بالكثير من الثقة.

وشدد زميلي الأكثر تفاؤلاً، فريديريك لاردينوا، على أن عمومًا قد يكون توفير الوقت أمرًا يستحق التلاعب بالإبهام. لكنني أعتقد أن الأمر سيعتمد كثيرًا على حالة الاستخدام. لاختيار نقاط المؤامرة من سلسلة؟ ربما لا. ولكن للعثور على لقطة الشاشة الصحيحة لمشهد سينمائي لا تتذكره إلا بشكل غامض؟ ربما.

تحسينات أخرى

بالإضافة إلى النافذة المنبثقة الموسعة، يقدم Gemini 1.5 Pro تحسينات أخرى على جودة الحياة.

تقول Google إنه من حيث الجودة، فإن Gemini 1.5 Pro “قابل للمقارنة” بالإصدار الحالي من Gemini Ultra، نموذج GenAI الرائد من Google، وذلك بفضل بنية جديدة مكونة من نماذج “خبيرة” أصغر حجمًا ومتخصصة. يقوم Gemini 1.5 Pro بشكل أساسي بتقسيم المهام إلى مهام فرعية متعددة ثم تفويضها إلى نماذج الخبراء المناسبة، وتحديد المهمة التي سيتم تفويضها بناءً على توقعاته الخاصة.

وزارة التربية والتعليم ليست جديدة، فهي موجودة بشكل أو بآخر منذ سنوات. لكن كفاءته ومرونته جعلته خيارًا شائعًا بشكل متزايد بين موفري النماذج (انظر: نموذج تشغيل خدمات ترجمة اللغة من Microsoft).

ومع ذلك، فإن عبارة “الجودة المماثلة” هي وصف غامض إلى حد ما. من الصعب قياس جودة نماذج GenAI، وخاصة الوسائط المتعددة، كميا ــ ويزداد الأمر صعوبة عندما تكون النماذج محمية بواسطة معاينات خاصة تستبعد الصحافة. مقابل ما يستحق، تدعي Google أن Gemini 1.5 Pro يعمل على “مستوى مشابه إلى حد كبير” لـ Ultra وفقًا للمعايير التي تستخدمها الشركة تطوير LLMs بينما يتفوق على Gemini 1.0 Pro بنسبة 87% منها علامات. (سألاحظ أن التفوق على Gemini 1.0 Pro هو أ شريط منخفض.)

السعر علامة استفهام كبيرة.

تقول Google إنه أثناء المعاينة الخاصة، سيكون Gemini 1.5 Pro مع النافذة المنبثقة التي تحتوي على مليون رمز مميزًا مجانيًا. لكن الشركة تخطط لتقديم مستويات التسعير في المستقبل القريب والتي تبدأ عند نافذة السياق القياسية البالغة 128000 وتمتد إلى مليون رمز مميز.

يجب أن أتخيل أن النافذة المنبثقة الأكبر حجمًا لن تكون رخيصة الثمن – ولم تنجح Google في تهدئة المخاوف باختيار عدم الكشف عن الأسعار أثناء المؤتمر الصحفي. إذا كان السعر متوافقا مع أنثروبي، يمكن أن تكلف 8 دولارات لكل مليون رمز بسرعة و24 دولارًا لكل مليون رمز يتم إنشاؤه. ولكن ربما سيكون أقل. لقد حدثت أشياء غريبة! سيتعين علينا أن ننتظر ونرى.

وأتساءل أيضًا عن الآثار المترتبة على بقية الموديلات في عائلة Gemini، وفي المقام الأول Gemini Ultra. هل يمكننا أن نتوقع أن تتماشى ترقيات طراز Ultra تقريبًا مع ترقيات Pro؟ أم أنه ستكون هناك دائمًا – كما هو الحال الآن – فترة صعبة تتفوق فيها طرازات Pro المتوفرة في الأداء على طرازات Ultra، والتي لا تزال Google تسوقها على أنها الأفضل في مجموعة Gemini الخاصة بها؟

إذا كنت تشعر بأنك إنسان خيري، فارجع الأمر إلى مشاكل التسنين. إذا لم يكن الأمر كذلك، سمها كما هي: مربكة للغاية.

Source link

Maywiltech17/02/2024

0 17 5 دقائق