أيمكنك سماعي الآن؟ صوتيات الذكاء الاصطناعي لمكافحة الصوت المزعج باستخدام الذكاء الاصطناعي التوليدي

Maywiltech25/03/2024

0 26 4 دقائق

التسجيلات الصاخبة للمقابلات والخطب هي لعنة وجود مهندس الصوت. لكن شركة ألمانية ناشئة تأمل في حل هذه المشكلة من خلال نهج تقني فريد يستخدم الذكاء الاصطناعي التوليدي لتحسين وضوح الأصوات في الفيديو.

اليوم، الذكاء الاصطناعي الصوتيات خرج من مخبأه بتمويل قدره 1.9 مليون يورو. وفقًا للمؤسس المشارك والرئيس التنفيذي فابيان سيبل، فإن تقنية AI-coustics تتجاوز إلغاء الضوضاء القياسي لتعمل على ومع أي جهاز ومكبر صوت.

قال Seipel في مقابلة مع TechCrunch: “مهمتنا الأساسية هي جعل كل تفاعل رقمي، سواء كان ذلك عبر مكالمة جماعية أو جهاز استهلاكي أو مقطع فيديو غير رسمي على وسائل التواصل الاجتماعي، واضحًا مثل البث من استوديو احترافي”.

شارك سيبل، وهو مهندس صوت من خلال التدريب، في تأسيس AI-coustics مع كورفين جايديك، المحاضر في التعلم الآلي في جامعة برلين التقنية، في عام 2021. التقى سيبل وجيديكي أثناء دراسة تكنولوجيا الصوت في جامعة برلين التقنية، حيث غالبًا ما واجهوا فقراء جودة الصوت. جودة الدورات والبرامج التعليمية عبر الإنترنت التي كان عليهم اتباعها.

قال سيبل: “لقد كانت مدفوعتنا بمهمة شخصية: التغلب على التحدي المنتشر المتمثل في ضعف جودة الصوت في الاتصالات الرقمية”. “على الرغم من ضعف سمعي قليلاً بسبب إنتاج الموسيقى في أوائل العشرينات من عمري، إلا أنني كنت أعاني دائمًا من المحتوى والمحاضرات عبر الإنترنت، مما دفعنا إلى العمل على موضوع الموسيقى في المقام الأول، وهو جودة الكلام والوضوح.

إن سوق برامج إلغاء الضوضاء وتحسين الصوت القائمة على الذكاء الاصطناعي قوية للغاية بالفعل. ومن بين منافسي AI-coustics شركة Insoundz، التي تستخدم الذكاء الاصطناعي التوليدي لتحسين البث والمقاطع الصوتية المسجلة مسبقًا، و Veed.ioمجموعة تحرير فيديو تحتوي على أدوات لإزالة ضوضاء الخلفية من المقاطع.

لكن سيبل يقول إن تقنيات الذكاء الاصطناعي الصوتية لديها نهج فريد لتطوير آليات الذكاء الاصطناعي التي تقوم بالعمل الحقيقي المتمثل في تقليل الضوضاء.

تستخدم الشركة الناشئة نموذجًا تم تدريبه على عينات الكلام المسجلة في استوديو الشركة الناشئة في برلين، مسقط رأس شركة AI-coustics. يتم الدفع للأشخاص مقابل تسجيل العينات – لم يذكر سيبل عددها – والتي يتم إضافتها بعد ذلك إلى مجموعة بيانات لتدريب نموذج تقليل الضوضاء الخاص بالذكاء الاصطناعي.

وقال سيبل: “لقد قمنا بتطوير نهج فريد لمحاكاة المصنوعات الصوتية والقضايا – مثل الضوضاء، والصدى، والضغط، والميكروفونات محدودة النطاق، والتشويه، والقص، وما إلى ذلك – أثناء عملية التدريب”.

أراهن أن البعض سيعترض على نظام التعويضات الفريد الذي تقدمه AI-coustics للمبدعين، نظرًا لأن النموذج الذي تعمل الشركة الناشئة على تشكيله قد يكون مربحًا للغاية على المدى الطويل. (هناك جدل صحي حول ما إذا كان منشئو بيانات التدريب لنماذج الذكاء الاصطناعي يستحقون بقايا نظير مساهماتهم). ولكن ربما يكون التحيز هو مصدر القلق الأكبر والأكثر إلحاحا.

من الثابت أن خوارزميات التعرف على الكلام يمكن أن تطور تحيزات تضر المستخدمين في النهاية. أ يذاكر أظهر المنشور في The Proceedings of the National Academy of Sciences أن التعرف على الكلام في الشركات الكبيرة كان أكثر عرضة بمرتين لنسخ الصوت بشكل غير صحيح من المتحدثين السود مقارنة بالمتحدثين البيض.

وفي محاولة لمكافحة ذلك، يقول سيبل إن شركة AI-coustics تركز على تجنيد المساهمين “المتنوعين” في عينات الكلام. وأضاف: “الحجم والتنوع هما المفتاح للقضاء على التحيز وجعل التكنولوجيا مناسبة لجميع اللغات وهويات المتحدثين والأعمار واللهجات والأجناس. »

لم يكن الاختبار الأكثر علمية، لكنني قمت بتحميل ثلاثة مقاطع فيديو: واحد مقابلة مع مزارع من القرن الثامن عشرأ مظاهرة قيادة السيارة و واحد مظاهرة ضد الصراع الإسرائيلي الفلسطيني – على منصة AI-coustics لرؤية أدائها مع كل واحدة. لقد حققت تقنيات الذكاء الاصطناعي بالفعل وعدها بتحسين الوضوح؛ بالنسبة لأذني، كانت المقاطع المعالجة تحتوي على ضوضاء خلفية محيطة أقل بكثير تطغى على مكبرات الصوت.

إليكم مقطع مزارع من القرن الثامن عشر من قبل:

و بعد:

Seipel estime que la technologie d’AI-coustics est utilisée pour améliorer la parole en temps réel et enregistrée, et peut-être même être intégrée dans des appareils tels que les barres de son, les smartphones et les écouteurs pour améliorer automatiquement la clarté de صوت. حالياً، تقدم AI-coustics تطبيق ويب وواجهة برمجة التطبيقات (API) لتسجيلات الصوت والفيديو بعد المعالجة، بالإضافة إلى SDK الذي يدمج منصة AI-coustics في سير العمل والتطبيقات والأجهزة الحالية.

يقول سيبل إن شركة AI-coustics – التي تجني الأموال من خلال مجموعة من الاشتراكات والتسعير حسب الطلب والترخيص – لديها حاليًا خمسة عملاء من المؤسسات و20 ألف مستخدم (على الرغم من أن جميعهم لا يدفعون). تتضمن خارطة الطريق خلال الأشهر القليلة المقبلة توسيع فريق الشركة المكون من أربعة أشخاص وتحسين نموذج تحسين الكلام الأساسي.

وقال سيبل: “قبل استثمارنا الأولي، كانت شركة AI-coustics تدير عملية بسيطة إلى حد ما مع معدل حرق منخفض من أجل التغلب على تحديات سوق استثمار رأس المال الاستثماري”. “تمتلك شركة AI-coustics الآن شبكة كبيرة من المستثمرين والموجهين في ألمانيا والمملكة المتحدة لتقديم المشورة لنا. إن القاعدة التكنولوجية القوية والقدرة على التعامل مع الأسواق المختلفة بنفس قاعدة البيانات والتكنولوجيا الأساسية تمنح الشركة المرونة والقدرة على إنشاء محاور أصغر.

تم السؤال عما إذا كانت تقنيات إتقان الصوت مثل AI-coustics يمكن أن تسرق الوظائف كما يخشى بعض الخبراءوسلط سيبل الضوء على إمكانات الذكاء الاصطناعي الصوتي لتسريع المهام الشاقة التي تقع حاليًا على عاتق مهندسي الصوت البشريين.

وقال: “يمكن لاستوديو إنشاء المحتوى أو مدير البث توفير الوقت والمال من خلال أتمتة أجزاء من عملية الإنتاج الصوتي باستخدام صوتيات الذكاء الاصطناعي مع الحفاظ على أفضل جودة صوت”. “تظل جودة الكلام ووضوحه مشكلة مزعجة في جميع الأجهزة الاستهلاكية أو المهنية تقريبًا، وكذلك في إنتاج المحتوى أو استهلاكه. من المحتمل أن يستفيد كل تطبيق يتم فيه تسجيل الكلام أو معالجته أو نقله من تقنيتنا.

جاء التمويل في شكل شريحة من الأسهم والديون من Connect Ventures وInovia Capital وFOV Ventures وAbleton CFO Jan Bohl.

Source link

Maywiltech25/03/2024

0 26 4 دقائق