إعلانات الذكاء الاصطناعي الرئيسية من Google I/O

Maywiltech15/05/2024

0 6 4 دقائق

تعمل Google بكل ما في وسعها على الذكاء الاصطناعي، وتريدك أن تعرف ذلك. خلال الكلمة الرئيسية للشركة في مؤتمر I/O للمطورين يوم الثلاثاء، ذكرت Google كلمة “AI”. أكثر من 120 مرة. انه كثير!

ولكن لم تكن جميع إعلانات جوجل المتعلقة بالذكاء الاصطناعي مهمة في حد ذاتها. وكان بعضها تقدميًا. وقد تم إعادة صياغة الآخرين. لذلك، لمساعدتك في فرز القمح من القشر، قمنا بتجميع أفضل منتجات وميزات الذكاء الاصطناعي الجديدة التي تم الكشف عنها في Google I/O 2024.

الذكاء الاصطناعي التوليدي في البحث

تخطط Google لاستخدام الذكاء الاصطناعي التوليدي تنظيم صفحات كاملة من نتائج بحث جوجل.

كيف ستبدو الصفحات المنسقة بالذكاء الاصطناعي؟ حسنا، ذلك يعتمد على استعلام البحث. لكنها قالت إن بإمكانهم عرض ملخصات المراجعة التي تم إنشاؤها بواسطة الذكاء الاصطناعي، والمناقشات على مواقع التواصل الاجتماعي مثل Reddit وقوائم الاقتراحات التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

في الوقت الحالي، تخطط جوجل لعرض صفحات النتائج المعززة بالذكاء الاصطناعي عندما تكتشف أن المستخدم يبحث عن الإلهام، كما هو الحال عند التخطيط لرحلة. وقريبًا، سيتم عرض هذه النتائج أيضًا عندما يبحث المستخدمون عن خيارات ووصفات الطعام، مع نتائج الأفلام والكتب والفنادق والتجارة الإلكترونية والمزيد.

مشروع أسترا و الجوزاء لايف

اعتمادات الصورة: جوجل جوجل

غوغل تحسين برنامج الدردشة الآلي Gemini القائم على الذكاء الاصطناعي حتى يتمكن من فهم العالم من حوله بشكل أفضل.

واستعرضت الشركة تجربة جديدة في Gemini تسمى Gemini Live، والتي تتيح للمستخدمين إجراء محادثات صوتية “متعمقة” مع Gemini على هواتفهم الذكية. يمكن للمستخدمين مقاطعة Gemini أثناء حديث Chatbot لطرح أسئلة توضيحية، وسوف يتكيف مع أنماط كلامهم في الوقت الفعلي. ويمكن لـ Gemini رؤية البيئة المحيطة بالمستخدمين والتفاعل معها، إما من خلال الصور أو مقاطع الفيديو التي تلتقطها كاميرات هواتفهم الذكية.

يمكن لبرنامج Gemini Live – الذي لن يتم إطلاقه إلا في وقت لاحق من هذا العام – الإجابة على الأسئلة حول ما هو مرئي (أو مرئي مؤخرًا) من كاميرا الهاتف الذكي، مثل الحي الذي قد يتواجد فيه المستخدم أو اسم جزء من دراجة مكسورة. تأتي الابتكارات التقنية التي تقود البث المباشر جزئيًا من Project Astra، وهي مبادرة جديدة ضمن DeepMind لإنشاء تطبيقات و”وكلاء” قائمة على الذكاء الاصطناعي من أجل فهم متعدد الوسائط في الوقت الفعلي.

جوجل فيو

جوجل تطلق في OpenAI سورا مع فيونموذج ذكاء اصطناعي قادر على إنشاء مقاطع فيديو بدقة 1080 بكسل مدتها دقيقة واحدة تقريبًا من رسالة نصية.

يستطيع Veo التقاط أنماط بصرية وسينمائية مختلفة، بما في ذلك لقطات المناظر الطبيعية والفواصل الزمنية، وإجراء تعديلات وتعديلات على اللقطات التي تم إنشاؤها بالفعل. يفهم النموذج حركات الكاميرا والمؤثرات البصرية الناتجة عن المطالبات بشكل جيد (فكر في الواصفات مثل “التحريك” و”التكبير/التصغير” و”الانفجار”). ويمتلك Veo قدرًا كبيرًا من التعامل مع الفيزياء – أشياء مثل ديناميكيات السوائل والجاذبية – مما يساهم في واقعية مقاطع الفيديو التي ينشئها.

يدعم Veo أيضًا التحرير المخفي للتغييرات التي يتم إجراؤها على مناطق معينة من الفيديو ويمكنه إنشاء مقاطع فيديو من صورة ثابتة، على غرار النماذج التوليدية مثل فيديو مستقر من Stability AI. ولعل الأمر الأكثر إثارة للاهتمام هو أنه في ضوء سلسلة من المطالبات التي تحكي معًا قصة، يستطيع Veo إنشاء مقاطع فيديو أطول – مقاطع فيديو أطول من دقيقة.

طلب الصور

تحصل صور Google على مزيج من الذكاء الاصطناعي مع إطلاق ميزة تجريبية، طلب الصورمدعوم من عائلة Gemini من Google لنماذج الذكاء الاصطناعي التوليدية.

سيسمح تطبيق Ask Photos، الذي سيتم طرحه في وقت لاحق من هذا الصيف، للمستخدمين بالبحث في مجموعة صور Google الخاصة بهم باستخدام استعلامات اللغة الطبيعية التي تعزز فهم Gemini لمحتوى الصور والبيانات الوصفية الأخرى.

على سبيل المثال، بدلاً من البحث عن عنصر محدد في صورة ما، مثل “One World Trade”، سيتمكن المستخدمون من إجراء عمليات بحث أوسع وأكثر تعقيدًا، مثل العثور على “أفضل صورة لكل من المتنزهات الوطنية التي قمت بزيارتها” “. » في هذا المثال، سيستخدم Gemini إشارات مثل الإضاءة والتمويه وعدم وجود تشويه في الخلفية لتحديد ما يجعل الصورة “الأفضل” في مجموعة معينة ودمج ذلك مع فهم معلومات الموقع الجغرافي والتواريخ لإرجاع الصور ذات الصلة.

الجوزاء في Gmail

سيتمكن مستخدمو Gmail قريبًا من ذلك البحث وتلخيص وكتابة رسائل البريد الإلكترونيبفضل Gemini – بالإضافة إلى اتخاذ إجراءات بشأن رسائل البريد الإلكتروني لمهام أكثر تعقيدًا، مثل المساعدة في معالجة المرتجعات.

في العرض التوضيحي الذي تم عرضه في I/O، أظهرت Google كيف يمكن لأحد الوالدين الراغبين في مواكبة ما يحدث في مدرسة طفلهم أن يطلب من Gemini تلخيص جميع رسائل البريد الإلكتروني الأخيرة من المدرسة. بالإضافة إلى نص رسائل البريد الإلكتروني نفسها، سيقوم Gemini أيضًا بفحص المرفقات، مثل ملفات PDF، وينشر ملخصًا بالنقاط الرئيسية والإجراءات التي يجب اتخاذها.

من الشريط الجانبي لـ Gmail، يمكن للمستخدمين أن يطلبوا من Gemini مساعدتهم في تنظيم إيصالات البريد الإلكتروني الخاصة بهم وحتى وضعها في مجلد Google Drive، أو استخراج المعلومات من الإيصالات وتخزينها ولصقها في جدول بيانات. إذا كان هذا شيئًا تفعله كثيرًا (على سبيل المثال، كمسافر عمل لتتبع النفقات)، فيمكن أن يعرض عليك Gemini أيضًا أتمتة سير العمل لاستخدامه في المستقبل.

كشف عمليات الاحتيال أثناء المكالمات

جوجل قام بمعاينة ميزة مدعومة بالذكاء الاصطناعي لتنبيه المستخدمين بشأن عمليات الاحتيال المحتملة أثناء المكالمة.

هذه الوظيفة، والتي سيتم دمجها في الإصدار المستقبلي من Android، يستخدم الجوزاء نانوأصغر إصدار من عرض الذكاء الاصطناعي التوليدي من Google، والذي يمكن تشغيله بالكامل على الجهاز، للاستماع في الوقت الفعلي إلى “أنماط المحادثة المرتبطة عادةً بعمليات الاحتيال”.

لم يتم تحديد تاريخ إصدار محدد لهذه الميزة. مثل العديد من هذه الأشياء، تتوقع Google كل ما سيتمكن Gemini Nano من القيام به في المستقبل. ومع ذلك، نحن نعلم أن الميزة ستكون اختيارية، وهو أمر جيد. على الرغم من أن استخدام Nano يعني أن النظام لن يقوم تلقائيًا بتحميل الصوت إلى السحابة، إلا أن النظام لا يزال يستمع بشكل فعال إلى محادثات المستخدم، مما يشكل خطرًا محتملاً على الخصوصية.

الذكاء الاصطناعي لإمكانية الوصول

غوغل تحسين ميزة إمكانية الوصول إلى TalkBack لنظام Android مع القليل من سحر الذكاء الاصطناعي التوليدي.

قريبًا، سيستفيد TalkBack من Gemini Nano لإنشاء أوصاف صوتية للأشياء للمستخدمين ضعاف البصر والمكفوفين. على سبيل المثال، قد يشير TalkBack إلى قطعة من الملابس على النحو التالي: “لقطة مقربة لفستان من القماش القطني باللونين الأبيض والأسود. الفستان قصير، ذو ياقة وأكمام طويلة. يتم ربطه عند الخصر بقوس كبير.

وفقًا لـ Google، يواجه مستخدمو TalkBack ما يقرب من 90 صورة غير مصنفة يوميًا. وباستخدام Nano، سيتمكن النظام من تقديم معاينة للمحتوى، مما يوفر على أي شخص الاضطرار إلى إدخال هذه المعلومات يدويًا.