يدخل Google Gemini Pro 1.5 إلى المعاينة العامة على Vertex AI

Maywiltech09/04/2024

0 23 3 دقائق

Gemini 1.5 Pro، نموذج الذكاء الاصطناعي الأكثر قدرة على إنتاج Google، متوفر الآن للمعاينة العامة على Vertex AI، منصة تطوير الذكاء الاصطناعي للمؤسسات من Google. أعلنت الشركة عن هذه الأخبار في مؤتمر Cloud Next السنوي الذي يعقد هذا الأسبوع في لاس فيغاس.

الجوزاء 1.5 برو تم إطلاقه في فبراير، لينضم إلى Google تَوأَم عائلة نماذج الذكاء الاصطناعي التوليدية. الميزة الرئيسية لها هي بلا شك مقدار السياق الذي يمكنها معالجته: ما بين 128000 وما يصل إلى مليون رمز مميز، حيث تشير كلمة “الرموز” إلى أجزاء مقسمة من البيانات الأولية (مثل المقاطع “fan” و”tas” و”tick”). في كلمة “رائع”).

مليون رمز يعادل حوالي 700000 كلمة أو حوالي 30000 سطر من التعليمات البرمجية. وهذا يعادل حوالي أربعة أضعاف كمية البيانات التي يمكن أن يأخذها نموذج Claude 3 الرائد من Anthropic كمدخلات وحوالي ثمانية أضعاف سياق GPT-4 Turbo max الخاص بـ OpenAI.

يشير سياق النموذج، أو النافذة المنبثقة، إلى المجموعة الأولية من البيانات (على سبيل المثال، النص) التي يأخذها النموذج في الاعتبار قبل إنشاء المخرجات (على سبيل المثال، نص إضافي). سؤال بسيط: “من فاز في الانتخابات الرئاسية الأمريكية لعام 2020؟” “- يمكن أن يكون بمثابة سياق، تمامًا مثل سيناريو الفيلم أو البريد الإلكتروني أو المقال أو الكتاب الإلكتروني.

تميل النماذج ذات النوافذ المنبثقة الصغيرة إلى “نسيان” محتوى المحادثات الحديثة جدًا، مما يؤدي إلى خروجها عن الموضوع. وهذا ليس هو الحال بالضرورة مع النماذج ذات السياقات الموسعة. وكميزة إضافية، يمكن لنماذج السياق العريض أن تلتقط بشكل أفضل التدفق السردي للبيانات التي تدمجها، وتولد استجابات أكثر ثراءً من حيث السياق، وتقلل من الحاجة إلى الضبط الدقيق والأسس الواقعية – على الأقل من الناحية النظرية.

إذًا، ما الذي يمكن فعله على وجه التحديد باستخدام مليون رمز منبثق؟ تعد Google بالكثير من الأشياء، مثل تحليل مكتبة من الرموز، و”الاستدلال” على مستندات طويلة، وإجراء محادثات طويلة مع برنامج الدردشة الآلي.

نظرًا لأن Gemini 1.5 Pro متعدد اللغات – ومتعدد الوسائط بمعنى أنه قادر على فهم الصور ومقاطع الفيديو، واعتبارًا من يوم الثلاثاء، تدفقات الصوت بالإضافة إلى النص – يمكن للنموذج أيضًا تحليل ومقارنة المحتوى من الوسائط مثل البرامج التلفزيونية والأفلام ، مذياع. البث وتسجيلات المكالمات الجماعية وغير ذلك الكثير بلغات مختلفة. مليون رمز يعادل حوالي ساعة واحدة من الفيديو أو ما يقرب من 11 ساعة من الصوت.

بفضل إمكانات معالجة الصوت، يمكن لـ Gemini 1.5 Pro أيضًا إنشاء نسخ لمقاطع الفيديو، على الرغم من أن جودة هذه النسخ لم تحسم بعد.

في عرض توضيحي تم تسجيله مسبقًا في وقت سابق من هذا العام، عرضت Google برنامج Gemini 1.5 Pro وهو يبحث في نص البث التلفزيوني للهبوط على سطح القمر لمركبة أبولو 11 (وهو حوالي 400 صفحة) بحثًا عن اقتباسات تحتوي على نكات، ثم العثور على مشهد في تسلسل فيلم يشبه رسم بالقلم الرصاص.

1. تقسيم + فهم فيديو طويل

لقد قمت بتحميل مسابقة NBA dunk بأكملها من الليلة الماضية وسألت أي لعبة dunk حصلت على أعلى الدرجات.

كان Gemini 1.5 قادرًا بشكل لا يصدق على العثور على 50 غطسًا مثاليًا وتفاصيل محددة من خلال فهمه الواسع للفيديو السياقي! pic.twitter.com/01iUfqfiAO

– روان تشيونغ (@rowancheung) 18 فبراير 2024

تقول Google إن المستخدمين الأوائل لـ Gemini 1.5 Pro، بما في ذلك United Wholesale Mortgage وTBS وReplit، يستفيدون من النافذة المنبثقة الكبيرة للمهام التي تغطي اكتتاب الرهن العقاري؛ أتمتة وضع علامات على البيانات الوصفية في أرشيفات الوسائط؛ وإنشاء وشرح وتحويل التعليمات البرمجية.

لا يقوم Gemini 1.5 Pro بمعالجة مليون رمز في لمح البصر. في العروض التوضيحية المذكورة أعلاه، استغرق كل بحث ما بين 20 ثانية ودقيقة، وهي فترة أطول بكثير من متوسط استعلام ChatGPT.

قالت Google سابقًا أن زمن الوصول هو مجال التركيز وأنها تعمل على “تحسين” Gemini 1.5 Pro بمرور الوقت.

تجدر الإشارة إلى أن Gemini 1.5 Pro يشق طريقه ببطء إلى أجزاء أخرى من النظام البيئي لمنتجات مؤسسة Google، حيث أعلنت الشركة يوم الثلاثاء أن النموذج (في المعاينة الخاصة) سيعمل على تشغيل ميزات Code الجديدة Assist، وهي أداة دعم الترميز التوليدي للذكاء الاصطناعي من Google. تقول جوجل إنه بإمكان المطورين الآن إجراء تغييرات “واسعة النطاق” على قواعد التعليمات البرمجية، مثل تحديث التبعيات بين الملفات ومراجعة أجزاء كبيرة من التعليمات البرمجية.

Source link