Google Gemini: كل ما تحتاج لمعرفته حول النظام الأساسي الجديد للذكاء الاصطناعي

Maywiltech16/02/2024

0 25 6 دقائق

تحاول Google إحداث ضجة مع Gemini، وهي مجموعة رائدة من نماذج وتطبيقات وخدمات الذكاء الاصطناعي التوليدية. ولكن على الرغم من أن برج الجوزاء يبدو واعدًا في بعض الجوانب، إلا أنه يفشل في جوانب أخرى – كما تظهر مراجعتنا غير الرسمية. كشف.

إذن ما هو برج الجوزاء؟ كيف يمكن إستخدامه؟ وكيف يمكن مقارنتها بالمنافسة؟

لتسهيل مواكبة أحدث تطورات Gemini، قمنا بتجميع هذا الدليل المفيد، والذي سنستمر في تحديثه مع إصدار نماذج وميزات Gemini الجديدة.

ما هو الجوزاء؟

الجوزاء هو جوجل وعد لفترة طويلة، وهي عائلة من نماذج GenAI من الجيل التالي، تم تطويرها بواسطة مختبرات أبحاث الذكاء الاصطناعي التابعة لشركة Google وDeepMind وGoogle Research. يأتي بثلاث نكهات:

الجوزاء التراالنموذج الرئيسي للجوزاء.
الجوزاء برونموذج الجوزاء “الخفيف”.
الجوزاء نانونموذج “مقطر” أصغر يعمل على الأجهزة المحمولة مثل بكسل 8 برو.

لقد تم تدريب جميع نماذج جيميني لتكون “متعددة الوسائط بشكل أصلي”، أي قادرة على العمل واستخدام أكثر من مجرد كلمات. لقد تم تدريبهم مسبقًا وضبطهم جيدًا على مجموعة متنوعة من الملفات الصوتية والصور ومقاطع الفيديو، ومجموعة كبيرة من قواعد التعليمات البرمجية والنصوص بلغات مختلفة.

وهذا ما يميز Gemini عن النماذج مثل Google لامدا، والتي تم تدريبها حصريًا على البيانات النصية. لا يستطيع LaMDA فهم أو إنشاء أي شيء آخر غير النص (مثل المقالات ومسودات البريد الإلكتروني)، ولكن هذا ليس هو الحال مع نماذج جيميني.

ما الفرق بين تطبيقات Gemini ونماذج Gemini؟

اعتمادات الصورة: جوجل

جوجل تثبت مرة أخرى لأنها تفتقر إلى موهبة العلامة التجارية، فشلت في توضيح منذ البداية أن Gemini كانت منفصلة ومتميزة عن تطبيقات الويب والهواتف المحمولة الخاصة بـ Gemini (المعروفة سابقًا باسم Bard). تعد تطبيقات Gemini مجرد واجهة يتم من خلالها الوصول إلى بعض نماذج Gemini – فكر فيها كعميل لـ GenAI من Google.

علاوة على ذلك، فإن تطبيقات ونماذج Gemini مستقلة تمامًا أيضًا الصورة 2، نموذج تحويل النص إلى صورة من Google المتوفر في بعض أدوات وبيئات التطوير الخاصة بالشركة. لا تقلق، فأنت لست الوحيد الذي يرتبك بسبب هذا.

ماذا يمكن أن يفعل الجوزاء؟

نظرًا لأن نماذج جيميني متعددة الوسائط، فيمكنها نظريًا أداء مجموعة من المهام متعددة الوسائط، بدءًا من نسخ الكلام إلى التعليقات على الصور ومقاطع الفيديو وحتى إنشاء أعمال فنية. لم يصل سوى عدد قليل من هذه الميزات إلى مرحلة المنتج حتى الآن (سنتحدث عن ذلك لاحقًا)، لكن Google تعد بها جميعًا – وأكثر – في المستقبل غير البعيد.

وبطبيعة الحال، فإنه من الصعب بعض الشيء أن تأخذ كلمة الشركة على محمل الجد.

جوجل نقص التسليم بشكل خطير مع إطلاق بارد الأصلي. ومؤخراً، أصبح الريش منفوشاً بفيديو من المفترض أن يظهر قدرات الجوزاء تبين أن هذا قد تم التلاعب به بشكل كبير وكان طموحًا إلى حد ما.

ومع ذلك، على افتراض أن جوجل صادقة إلى حد ما في ادعاءاتها، فإليك ما ستتمكن مستويات الجوزاء المختلفة من فعله بمجرد وصولها إلى إمكاناتها الكاملة:

الجوزاء الترا

جوجل يقول ذلك الجوزاء الترا – بفضل تعدد طرقه – يمكن استخدامه لتسهيل مهام مثل واجبات الفيزياء وحل المشكلات خطوة بخطوة في ورقة العمل والإبلاغ عن الأخطاء المحتملة في الإجابات المكتملة بالفعل.

يمكن أيضًا تطبيق Gemini Ultra على مهام مثل تحديد المقالات العلمية ذات الصلة بمشكلة معينة، كما تقول Google: استخراج المعلومات من تلك المقالات و”تحديث” رسم بياني من أحدها عن طريق إنشاء الصيغ اللازمة لإعادة إنشاء المخطط ببيانات أحدث. .

يدعم Gemini Ultra تقنيًا إنشاء الصور كما ذكرنا سابقًا. لكن هذه الإمكانية لم يتم دمجها بعد في نسخة المنتج من النموذج – ربما لأن الآلية أكثر تعقيدًا من كيفية استخدام تطبيقات مثل ChatGPT توليد الصور. بدلاً من تمرير المطالبات إلى منشئ الصور (مثل دال-E 3في حالة ChatGPT)، يقوم Gemini بإنشاء الصور “محليًا”، دون أي خطوات وسيطة.

يتوفر Gemini Ultra كواجهة برمجة تطبيقات من خلال Vertex AI، منصة تطوير الذكاء الاصطناعي المُدارة بالكامل من Google، وAI Studio، أداة الويب من Google لمطوري التطبيقات والأنظمة الأساسية. كما أنه يشغل تطبيقات Gemini، ولكن ليس مجانًا. يتطلب الوصول إلى Gemini Ultra من خلال ما تسميه Google Gemini Advanced الاشتراك في خطة Google One AI Premium، بسعر 20 دولارًا شهريًا.

تعمل خطة AI Premium أيضًا على ربط Gemini بحسابك الأوسع على Google Workspace: فكر في رسائل البريد الإلكتروني في Gmail، والمستندات في المستندات، والعروض التقديمية في جداول البيانات، وتسجيلات Google Meet. وهذا مفيد، على سبيل المثال، لتلخيص رسائل البريد الإلكتروني أو لـ Gemini لتسجيل الملاحظات أثناء مكالمة فيديو.

الجوزاء برو

تقول Google إن Gemini Pro يعد تحسينًا على LaMDA في قدرات التفكير والتخطيط والفهم.

مستقل يذاكر وجد باحثون من جامعة كارنيجي ميلون وBerriAI أن Gemini Pro أفضل بالفعل من OpenAI. جي بي تي-3.5 لإدارة سلاسل التفكير الأطول والأكثر تعقيدًا. لكن الدراسة وجدت أيضًا أنه، مثل جميع نماذج اللغات الرئيسية، يعاني Gemini Pro بشكل خاص من مشاكل الرياضيات التي تتضمن أرقامًا متعددة، و وجد المستخدمون العديد من الأمثلة ل المنطق السيئ والأخطاء.

ومع ذلك، فإن التحسينات التي وعدت بها جوجل – والأولى منها وصلت في شكل الجوزاء 1.5 برو.

تم تصميم Gemini 1.5 Pro (قيد المعاينة الآن) ليكون بديلاً سهلاً، وقد تم تحسينه في عدد من المجالات مقارنة بسابقه، وربما الأهم من ذلك في كمية البيانات التي يمكنه معالجتها. يمكن لـ Gemini 1.5 Pro (في معاينة خاصة محدودة) أن يحتوي على ما يقرب من 700000 كلمة أو ما يقرب من 30000 سطر من التعليمات البرمجية، وهو ما يعادل 35 ضعف الكمية التي يستطيع Gemini 1.0 Pro التعامل معها. و- كون النموذج متعدد الوسائط – فهو لا يقتصر على النص. يمكن لـ Gemini 1.5 Pro تحليل ما يصل إلى 11 ساعة من الصوت أو ساعة من الفيديو بمجموعة متنوعة من اللغات المختلفة، على الرغم من بطئه (على سبيل المثال، يستغرق العثور على مشهد في فيديو مدته ساعة 30 ثانية في كل مرة). دقيقة من المعالجة) .

يتوفر Gemini Pro أيضًا من خلال واجهة برمجة التطبيقات في Vertex AI لقبول النص كمدخل وإنشاء نص كمخرج. يمكن لنقطة نهاية إضافية، Gemini Pro Vision، معالجة النص و الصور – بما في ذلك الصور ومقاطع الفيديو – وإخراج النص على غرار OpenAI GPT-4 مع الرؤية نموذج.

استخدم Gemini Pro في Vertex AI. اعتمادات الصورة: تَوأَم

في Vertex AI، يمكن للمطورين تخصيص Gemini Pro لسياقات وحالات استخدام محددة باستخدام عملية الضبط الدقيق أو “التأريض”. يمكن أيضًا توصيل Gemini Pro بواجهات برمجة تطبيقات خارجية لتنفيذ إجراءات معينة.

في AI Studio، توجد مسارات عمل لإنشاء مطالبات مناقشة منظمة باستخدام Gemini Pro. يتمتع المطورون بإمكانية الوصول إلى نقاط النهاية Gemini Pro وGemini Pro Vision، ويمكنهم ضبط درجة حرارة النموذج للتحكم في النطاق الإبداعي للمخرجات وتقديم أمثلة لإعطاء التوجيه في النغمة والأسلوب – وكذلك ضبط إعدادات الأمان.

الجوزاء نانو

Gemini Nano هو إصدار أصغر بكثير من طرازي Gemini Pro وUltra، وهو فعال بما يكفي للتشغيل مباشرة على (بعض) الهواتف بدلاً من إرسال المهمة إلى خادم في مكان ما. حتى الآن، يتم تشغيل ميزتين في Pixel 8 Pro: التلخيص في المُسجل والرد الذكي في Gboard.

يتضمن تطبيق Recorder، الذي يتيح للمستخدمين الضغط على زر لتسجيل الصوت ونسخه، ملخصًا مدعومًا من Gemini لمحادثاتك ومقابلاتك وعروضك التقديمية والمقاطع المسجلة الأخرى. يتلقى المستخدمون هذه الملخصات حتى لو لم يكن لديهم إشارة أو اتصال Wi-Fi – ومن أجل الخصوصية، لا تترك أي بيانات هواتفهم أثناء هذه العملية.

Gemini Nano موجود أيضًا في Gboard، تطبيق لوحة مفاتيح Google، باعتباره نظرة مطور. هناك، يتم تشغيل ميزة تسمى الرد الذكي، والتي تساعد في اقتراح الشيء التالي الذي تريد قوله أثناء المحادثة في تطبيق المراسلة. وتقول جوجل إن الميزة تعمل في البداية مع واتساب فقط، ولكنها ستكون متاحة في المزيد من التطبيقات في عام 2024.

هل Gemini أفضل من GPT-4 الخاص بـ OpenAI؟

جوجل لديها عدة مرات أشاد ومدح التفوق المعياري لـ Gemini، حيث تدعي أن Gemini Ultra تتفوق على أحدث النتائج الحالية في “30 من 32 معيارًا أكاديميًا مستخدمًا على نطاق واسع في البحث وتطوير نماذج اللغات الكبيرة.” تدعي الشركة أن Gemini Pro، في الوقت نفسه، أكثر قدرة على القيام بمهام مثل تلخيص المحتوى والعصف الذهني والكتابة من GPT-3.5.

ولكن إذا تركنا جانباً مسألة ما إذا كانت المعايير تشير فعلياً إلى نموذج أفضل، فإن النتائج التي أبلغت عنها جوجل تظهر فقط أفضل قليلاً من النماذج المقابلة لـ OpenAI. وكما ذكرنا سابقًا، فإن بعض الانطباعات الأولى لم تكن رائعة المستخدمين و الأكاديميين مشيرًا إلى أن Gemini Pro يميل إلى فهم الحقائق الأساسية بشكل خاطئ، ويواجه صعوبة في الترجمات، ويقدم اقتراحات برمجية سيئة.

كم سيكلف الجوزاء؟

Gemini Pro مجاني ويمكن استخدامه في تطبيقات Gemini، وحاليًا في AI Studio وVertex AI.

ومع ذلك، بمجرد مغادرة Gemini Pro للمعاينة في Vertex، سيكلف القالب 0.0025 دولارًا أمريكيًا لكل حرف، بينما سيكلف الإخراج 0.00005 دولارًا أمريكيًا لكل حرف. يدفع عملاء Vertex مقابل كل 1000 حرف (حوالي 140 إلى 250 كلمة)، وفي حالة نماذج مثل Gemini Pro Vision، يدفعون لكل صورة (0.0025 دولار).

لنفترض أن مقالة مكونة من 500 كلمة تحتوي على 2000 حرف. سيكلف تلخيص هذه المقالة باستخدام Gemini Pro 5 دولارات. وفي الوقت نفسه، فإن إنشاء مقالة بنفس الطول سيكلف 0.1 دولار.

لم يتم الإعلان عن أسعار Ultra بعد.

أين يمكنك تجربة الجوزاء؟

الجوزاء برو

أسهل مكان لتجربة Gemini Pro هو تطبيقات الجوزاء. يستجيب Pro وUltra للاستفسارات بلغات متعددة.

Gemini Pro و Ultra كذلك يمكن الوصول تمت معاينته في Vertex AI عبر واجهة برمجة التطبيقات. واجهة برمجة التطبيقات (API) مجانية الاستخدام “ضمن الحدود” في الوقت الحالي وتدعم مناطق معينة، بما في ذلك أوروبا، بالإضافة إلى ميزات مثل وظيفة الدردشة والتصفية.

وفي مكان آخر، يمكن أن يكون Gemini Pro وUltra كذلك يجد في استوديو الذكاء الاصطناعي. من خلال الخدمة، يمكن للمطورين تصفح المطالبات وروبوتات الدردشة المستندة إلى Gemini، ثم الحصول على مفاتيح واجهة برمجة التطبيقات (API) لاستخدامها في تطبيقاتهم – أو تصدير التعليمات البرمجية إلى بيئة تطوير متكاملة (IDE) أكثر شمولاً.

Duet AI للمطورين، مجموعة الأدوات المساعدة التي تعمل بالذكاء الاصطناعي من Google لإكمال التعليمات البرمجية وإنشائها، تستخدم الآن قوالب Gemini. وقدمت جوجل نماذج الجوزاء في ادوات التطوير لمنصة تطوير الأجهزة المحمولة Chrome وFirebase.

الجوزاء نانو

Gemini Nano موجود على Pixel 8 Pro – وسيكون متاحًا على الأجهزة الأخرى في المستقبل. يمكن للمطورين المهتمين بدمج النموذج في تطبيقات Android الخاصة بهم يسجل للحصول على نظرة عامة.

Source link

Maywiltech16/02/2024

0 25 6 دقائق