الدكاء الاصطناعي

تعمل هذه المنظمة الألمانية غير الربحية على تطوير مساعد صوتي مفتوح يمكن لأي شخص استخدامه

كانت هناك العديد من المحاولات لإنشاء مساعدين صوتيين مفتوحين المصدر ومدعومين بالذكاء الاصطناعي (انظر Rhasspy وMycroft وJasper، على سبيل المثال لا الحصر) – تم إنشاء كل ذلك بهدف إنشاء تجارب تحافظ على الخصوصية دون الاتصال بالإنترنت والسرية وعدم المساس بالوظائف. لكن التنمية كانت بطيئة للغاية. في الواقع، بالإضافة إلى جميع التحديات المعتادة المرتبطة بالمشاريع مفتوحة المصدر، فإن برمجة المعالج هي كذلك صعب. تتمتع تقنيات مثل Google Assistant وSiri وAlexa بسنوات، بل وحتى عقود، من البحث والتطوير – وبنية تحتية ضخمة للتشغيل.

لكن هذا لا يردع العاملين في الشبكة المفتوحة للذكاء الاصطناعي واسعة النطاق (LAION)، وهي منظمة ألمانية غير ربحية مسؤولة عن الحفاظ على بعض مجموعات بيانات تدريب الذكاء الاصطناعي الأكثر شهرة في العالم. هذا الشهر، لايون أعلنت شركة BUD-E عن مبادرة جديدة تهدف إلى إنشاء مساعد صوتي “مفتوح بالكامل” قادر على العمل على الأجهزة الاستهلاكية.

لماذا إطلاق مشروع مساعد صوتي جديد تمامًا عندما يكون هناك عدد لا يحصى من الآخرين في حالات مختلفة من الهجر؟ يعتقد ويلاند بريندل، الباحث في معهد إليس والمساهم في BUD-E، أنه لا يوجد مساعد مفتوح ذو بنية قابلة للتوسيع بما فيه الكفاية للاستفادة الكاملة من تقنيات GenAI الناشئة، وخاصة نماذج اللغة الكبيرة (LLM) من نوع OpenAI ChatGPT.

“La plupart des interactions avec (les assistants) reposent sur des interfaces de discussion avec lesquelles il est plutôt difficile d’interagir, (et) les dialogues avec ces systèmes semblent guindés et contre nature”, a déclaré Brendel à TechCrunch dans une interview par بريد إلكتروني. “تسمح لك هذه الأنظمة بإرسال أوامر للتحكم في الموسيقى أو تشغيل الأضواء، لكنها لا توفر أساسًا لمحادثات طويلة وجذابة. الهدف من BUD-E هو توفير الأساس لمساعد صوتي يبدو أكثر طبيعية للبشر ويحاكي أنماط الكلام الطبيعية للحوارات البشرية ويتذكر المحادثات السابقة.

وأضاف بريندل أن LAION تريد أيضًا التأكد من إمكانية دمج كل مكون من مكونات BUD-E في نهاية المطاف في التطبيقات والخدمات غير المرخصة، حتى تجاريًا – وهذا ليس بالضرورة هو الحال بالنسبة لجهود BUD-E الأخرى.

إن BUD-E ــ وهو اختصار متكرر لعبارة “رفيق الفهم والتعاطف الرقمي” ــ لديه خريطة طريق طموحة. في مشاركة مدونةيحدد فريق LAION ما يأملون في تحقيقه خلال الأشهر المقبلة، وذلك بشكل أساسي من خلال دمج “الذكاء العاطفي” في BUD-E والتأكد من قدرته على التعامل مع المحادثات التي تتضمن عدة متحدثين في وقت واحد.

وقال بريندل: “هناك حاجة كبيرة لمساعد صوتي طبيعي يعمل بشكل جيد”. “لقد أظهرت LAION في الماضي أنها جيدة في بناء المجتمعات، ويلتزم معهد ELLIS في توبنغن ومركز توبنغن للذكاء الاصطناعي بتوفير الموارد اللازمة لتطوير المساعد.

BUD-E جاهز للعمل – يمكنك القيام بذلك تحميل وقم بتثبيته اليوم من GitHub على Ubuntu أو جهاز كمبيوتر يعمل بنظام Windows (سيأتي نظام التشغيل macOS) – ولكن لا يزال الوقت مبكرًا.

قامت LAION بتجميع العديد من النماذج المفتوحة لتجميع MVP، بما في ذلك Phi-2 LLM من Microsoft، وStyleTTS2 من كولومبيا لتركيب الكلام، وFastConformer من Nvidia لتركيب الكلام. على هذا النحو، لم يتم تحسين التجربة. لكي يستجيب BUD-E للأوامر في حوالي 500 مللي ثانية – في نطاق المساعدين الصوتيين التجاريين مثل Google Assistant و Alexa – يتطلب وحدة معالجة رسومات قوية مثل Nvidia. RTX4090.

تعمل Collabora مجانًا لتكييف نماذج التعرف على الكلام مفتوحة المصدر ونماذج تحويل النص إلى كلام، WhisperLive وWhisperSpeech، من أجل BUD-E.

وقال جاكوب بيوتر كلابا، باحث الذكاء الاصطناعي في Collabora وعضو فريق BUD-E: “إن بناء حلول تركيب الكلام والتعرف على الكلام بأنفسنا يعني أنه يمكننا تخصيصها إلى درجة غير ممكنة مع النماذج المغلقة المكشوفة عبر واجهات برمجة التطبيقات”. بريد إلكتروني. “بدأت Collabora في البداية العمل على (المساعدين المفتوحين) جزئيًا لأننا كنا نواجه مشكلة في العثور على حل جيد لتحويل النص إلى كلام لوكيل صوتي قائم على LLM لأحد عملائنا. لقد قررنا توحيد الجهود مع مجتمع المصادر المفتوحة الأوسع لجعل نماذجنا متاحة ومفيدة على نطاق أوسع.

على المدى القصير، تدعي LAION أن هذا سيساعد في جعل متطلبات أجهزة BUD-E أقل صعوبة وتقليل زمن وصول المساعد. يتمثل المشروع طويل المدى في إنشاء مجموعة بيانات من الحوارات لتحسين BUD-E، بالإضافة إلى آلية ذاكرة للسماح لـ BUD-E بتخزين المعلومات من المحادثات السابقة وخط أنابيب لمعالجة الكلام قادر على متابعة العديد من الأشخاص الذين يتحدثون في وقت معين. . مرة.

سألت الفريق إذا إمكانية الوصول كانت الأولوية، نظرًا لأن أنظمة التعرف على الصوت لم تعمل تاريخيًا بشكل جيد مع لغات أخرى غير الإنجليزية واللهجات التي لا تعبر المحيط الأطلسي. ستانفورد يذاكر وجدت أن أنظمة التعرف على الصوت من Amazon، وIBM، وGoogle، وMicrosoft، وApple كانت أكثر عرضة للخطأ في فهم المتحدثين السود مقارنة بالمتحدثين البيض من نفس العمر والجنس.

قال بريندل ذلك LAION لا تتجاهل إمكانية الوصول – ولكنها ليست “أولوية فورية” بالنسبة لـ برعم-E.

قال بريندل: “الأولوية الأولى هي إعادة تعريف تجربة كيفية تفاعلنا مع المساعدين الصوتيين قبل تعميم تلك التجربة على لهجات ولغات أكثر تنوعًا”.

تحقيقا لهذه الغاية، لدى LAION بعض الأفكار الأصلية الرائعة لـ BUD-E، بدءًا من الصورة الرمزية المتحركة وانتحال شخصية المساعد ودعم تحليل وجوه المستخدمين عبر كاميرات الويب لمراعاة حالتهم العاطفية.

وغني عن القول إن أخلاقيات الجزء الأخير – تحليل الوجه – مشبوهة بعض الشيء. لكن روبرت كازمارتشيك، المؤسس المشارك لـ LAION، أكد أن LAION ستظل ملتزمة بالأمن.

وقال لـ TechCrunch عبر البريد الإلكتروني: “(نحن) نلتزم بشكل صارم بإرشادات الأمن والأخلاق التي صاغها قانون الذكاء الاصطناعي الأوروبي”، في إشارة إلى الإطار القانوني الذي يحكم بيع واستخدام الذكاء الاصطناعي في الاتحاد الأوروبي. يسمح قانون الذكاء الاصطناعي للاتحاد الأوروبي للدول الأعضاء في الاتحاد الأوروبي بتبني قواعد وضمانات أكثر تقييدًا للذكاء الاصطناعي “عالي المخاطر”، بما في ذلك مصنفات المشاعر.

وأضاف كازمارتشيك: “إن هذا الالتزام بالشفافية لا يسهل التحديد المبكر وتصحيح التحيزات المحتملة فحسب، بل يساهم أيضًا في قضية النزاهة العلمية”. “من خلال إتاحة الوصول إلى مجموعات البيانات الخاصة بنا، فإننا نمكن المجتمع العلمي الأوسع من المشاركة في الأبحاث التي تلبي أعلى معايير التكاثر.”

العمل السابق من قبل LAION لم يكن لا تشوبها شائبة بالمعنى الأخلاقي، وهو يتابع حاليًا مشروعًا منفصلاً مثيرًا للجدل إلى حد ما حول كشف المشاعر. ولكن ربما سيكون BUD-E مختلفًا؛ سيتعين علينا أن ننتظر ونرى.


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى