OpenAI كشفت النقاب عن GPT-4o، وهو نموذج جديد للذكاء الاصطناعي يجمع بين النص والرؤية والصوت.
له حدث البث المباشر المرتقبقالت ميرا موراتي، المديرة التنفيذية للتكنولوجيا في OpenAI، إن GPT-4o يمكنه معالجة النص والصوت والرؤية في نموذج واحد. سيكون GPT-4o متاحًا مجانًا لجميع مستخدمي ChatGPT. إنه متوفر أيضًا في واجهة برمجة التطبيقات (API)، وهو بنصف السعر وأسرع بمرتين من GPT -4 Turbo. يشير الحرف “o” في الاسم إلى “omni”، في إشارة إلى طرائقه المجمعة في نمط واحد.
القدرات الصوتية GPT-4o
وأكد الإعلان شائعات سابقة عن المساعد الصوتي. في السابق، كانت هناك نماذج منفصلة للطرائق الصوتية والبصرية. لكن GPT-4o “متعدد الوسائط في الأصل” قال سام ألتمان، الرئيس التنفيذي لشركة OpenAI، أون
ربما تم حذف التغريدة
الآن يجمع GPT-4o بين الأساليب، مما يقلل التأخير ويجعله سريع الاستجابة في الوقت الفعلي. هذا يعني أنه يمكنك مقاطعة النمط. يمكنه أيضًا الشعور بالعواطف والنغمات والتعبير عن مشاعره ونغماته، مما يجعله يبدو دراميًا أو آليًا للغاية. يمكنه حتى الغناء (إذا أردت).
يبدو الصوت الأنثوي الهادئ المستخدم في العرض التوضيحي مشابهًا إلى حد كبير لشخصية المساعد الصوتي لسكارليت جوهانسون في الفيلم. ها.
سرعة الضوء قابلة للسحق
قدرات الرؤية GPT-4o
وأظهر عرض توضيحي آخر قدرة GPT-4o على حل المسائل الرياضية باستخدام طريقة الرؤية الخاصة به. ويمكنه توجيه المستخدم خلال مسألة رياضية أساسية عند حل X. ومن خلال تمييز الكود على الشاشة، يمكن لـ ChaGPT مع GPT-4o معالجة وفهم ماهية الكود والمساعدة في “التحسين”.
بناءً على طلبات المستخدمين، أظهر ChatGPT مع GPT-4o قدرته على الترجمة في الوقت الفعلي وفهم المشاعر.
ربما تم حذف التغريدة
بدأ موراتي الحدث بمشاركة توفر تطبيق سطح مكتب جديد.
في السابق، ترددت شائعات بأن OpenAI ستعلن عن محرك بحث ChatGPT أو نموذج محول GPT-5 جديد من قبل. جوجل آي/أو. نفى الرئيس التنفيذي سام ألتمان هذه الشائعات قبل حدث يوم الاثنين، ولكن يعتقد أنها لا تزال في طور التطور.