Deepgram Aura يمنح عملاء الذكاء الاصطناعي صوتًا
ديبجرام صنعت اسمًا لنفسها كواحدة من الشركات الناشئة المتخصصة في التعرف على الصوت. اليوم هو ممولة بشكل جيد أعلنت الشركة عن إطلاق سوف نحصل على، واجهة برمجة التطبيقات الجديدة لتركيب الكلام في الوقت الفعلي. تجمع Aura بين نماذج صوتية واقعية للغاية مع واجهة برمجة التطبيقات (API) ذات زمن الوصول المنخفض لتمكين المطورين من إنشاء وكلاء الذكاء الاصطناعي للمحادثة في الوقت الفعلي. بدعم من نماذج اللغة الموسعة (LLM)، يمكن لهؤلاء الوكلاء بعد ذلك استبدال وكلاء خدمة العملاء في مراكز الاتصال وغيرها من المواقف التي تواجه العملاء.
وكما أخبرني سكوت ستيفنسون، المؤسس المشارك والرئيس التنفيذي لشركة Deepgram، فقد كان من الممكن منذ فترة طويلة الوصول إلى نماذج صوتية ممتازة، لكنها كانت باهظة الثمن واستغرقت وقتًا طويلاً لحسابها. وفي الوقت نفسه، تميل النماذج ذات الكمون المنخفض إلى أن تبدو آلية. تجمع تقنية Deepgram’s Aura بين نماذج صوتية شبيهة بالإنسان والتي يتم عرضها بسرعة كبيرة (عادةً في أقل من نصف ثانية)، وكما أشار ستيفنسون مرارًا وتكرارًا، فإنها تفعل ذلك بتكلفة زهيدة.
“الآن يقول الجميع: “مرحبًا، نحن بحاجة إلى روبوتات ذكاء اصطناعي صوتية في الوقت الفعلي يمكنها إدراك ما يقال ويمكنها فهم وتوليد الاستجابة – وبعد ذلك يمكنها الاستجابة”. ووفقًا له، يتطلب الأمر مزيجًا من الدقة (التي وصفها بأنها تحديات لخدمة مثل هذه)، وزمن الوصول المنخفض والتكاليف المقبولة لجعل منتج مثل هذا يستحق العناء للشركات، خاصة عند دمجه مع التكلفة المرتفعة نسبيًا للوصول إلى ماجستير إدارة الأعمال . .
تدعي Deepgram أن سعر Aura يتفوق حاليًا على جميع منافسيها تقريبًا عند 0.015 دولارًا لكل 1000 حرف. إنه ليس بعيدًا عن سعر Google مقابله صوت ويف نت بمعدل 0.016 لكل 1000 حرف وبولي في أمازون عصبية صوت بنفس السعر البالغ 0.016 دولارًا لكل 1000 حرف، لكنه – باعتراف الجميع – أرخص. ومع ذلك، فإن الطبقة الأعلى من أمازون أغلى بكثير.
“يجب عليك الوصول إلى نقطة سعر جيدة حقًا عبر جميع (القطاعات)، ولكن يجب أيضًا أن يكون لديك زمن وصول وسرعة لا تصدق، ودقة لا تصدق. قال ستيفنسون عن النهج العام الذي تتبعه Deepgram في بناء منتجها: “لذا فإن هذا أمر يصعب تحقيقه للغاية”. “ولكن هذا ما ركزنا عليه منذ البداية ولهذا السبب بنينا لمدة أربع سنوات قبل أن نطلق أي شيء، لأننا كنا نبني البنية التحتية الأساسية لتحقيق ذلك.”
سيكون لديك عروض حولها دزينة النماذج الصوتية في هذه المرحلة، والتي تم تدريبها جميعًا بواسطة مجموعة بيانات أنشأها Deepgram مع ممثلين صوتيين. تم تدريب نموذج Aura، مثل جميع الموديلات الأخرى للشركة، داخل الشركة. هذا هو ما يبدو:
يمكنك تجربة العرض التوضيحي لـ Aura هنا. لقد قمت باختباره لفترة من الوقت وعلى الرغم من أنك ستواجه بعض النطق الغريب في بعض الأحيان، إلا أن السرعة هي ما يبرز حقًا، بالإضافة إلى نموذج تحويل الكلام إلى نص عالي الجودة الموجود في Deepgram. لتسليط الضوء على مدى سرعة توليد الاستجابات، يلاحظ Deepgram المدة التي استغرقها النموذج لبدء التحدث (عادةً أقل من 0.3 ثانية) والمدة التي استغرقها LLM لإنهاء توليد استجابته (والتي عادة ما تكون أقل بقليل من ثانية).
Source link