قامت شركة Tavus الناشئة للفيديو بالذكاء الاصطناعي بجمع 18 مليون دولار لاستنساخ الوجه والصوت في أي تطبيق

Maywiltech12/03/2024

0 34 6 دقائق

هل رأيتطفل عمره أربع سنوات أكدت شركة الذكاء الاصطناعي الناشئة التي تساعد الشركات على إنشاء “نسخ طبق الأصل” رقمية للأفراد لحملات الفيديو الشخصية الآلية، تمويلًا جديدًا بقيمة 18 مليون دولار وكشفت أنها تفتح منصتها لأطراف ثالثة لدمج برامجها مع تكنولوجيا الشركة.

التقارير ظهرت في أغسطس وأن تافوس جمع “حوالي 18 مليون دولار”، لكن التفاصيل كانت نادرة. أكدت الشركة الآن لـ TechCrunch أنها جمعت بالفعل 18 مليون دولار في جولة تمويل من السلسلة A بقيادة شركاء رأس المال الاستثماري على نطاق واسع – صاحب رأس مال مغامر في مرحلة مبكرة قام بالفعل بدعم شركات مثل Box وHubSpot وDocuSign. ومن بين المستثمرين البارزين الآخرين سيكويا، والتي قاد جولة تمويل تافوس البالغة 6.1 مليون دولار العام الماضيوالتي شاركت جنبًا إلى جنب مع Y Combinator (YC) وHubSpot.

الفيديو يحتل مركز الصدارة

من الأفضل توضيح حركة الذكاء الاصطناعي التوليدية من خلال محركات البحث النصية مثل ChatGPT ونماذج الصور النصية مثل DALL-Eأيّ OpenAI في المنتصف للدمج في منصة واحدة مغنّاة بالكامل. ولكن إذا مرت الأشهر الأخيرة بأي شيء، فقد يكون الذكاء الاصطناعي التوليدي على أعتاب ثورة ثانوية أخرى الفيديو يأخذ مركز الصدارة.

أطلقت OpenAI مؤخرًا Sora، وهو نموذج لتحويل النص إلى فيديو يمكنه تحويل الصناعة الإبداعية كما نعرفها. لكنه ليس اللاعب الوحيد في المدينة ويعمل عمالقة التكنولوجيا مثل جوجل على أدوات مماثلة لعدة سنوات، حتى لا أذكر العديد من الشركات الناشئة التي نشأت ضخم قطع من التغيير من VC خلال العام الماضي لإنجازات مختلفة حول كيفية تداخل الذكاء الاصطناعي التوليدي مع الفيديو.

ومن جانبها، تعمل شركة تافوس مع عملائها لإنشاء نسخ طبق الأصل من الأفراد من خلال استنساخ الصوت والوجه. تكمن الفكرة في أن فرق المبيعات والتسويق يمكنها استخدام Tavus لإرسال مقاطع فيديو مخصصة إلى العملاء المحتملين على نطاق واسع، أو ربما يمكن لفريق المنتج إنشاء مقاطع فيديو مخصصة خطوة بخطوة لضم عملاء جدد، كل ذلك من خلال مطالبات نصية بسيطة تستفيد من البيانات الرقمية التي تم إنشاؤها مسبقًا. إشارة. ومن خلال دمج Tavus مع أنظمة الطرف الثالث مثل Salesforce أو Mailchimp، يمكن للشركات أتمتة الكثير من هذا: على سبيل المثال، يمكن للعميل الذي يملأ نموذجًا عبر الإنترنت يطلب معلومات إضافية حول منتج ما أن يتلقى على الفور رسالة بريد إلكتروني تحتوي على مقطع فيديو، مع مبيعات ممثل يتحدث معه. العميل المحتمل بالاسم وشرح الخطوات التالية.

تمكنت Tavus من جذب بعض العملاء الكبار جدًا في حياتها القصيرة حتى الآن، بما في ذلك Salesforce والشركة الأم لفيسبوك Meta، التي شارك مؤسسها ومديرها التنفيذي حسن رضا قالوا إنهم يستخدمون المنصة لبيع المنتجات لعملاء B2B الخاصين بهم عبر مقاطع فيديو تجريبية مخصصة.

تافوس كمنصة

حتى الآن، تم تقديم خدمة Tavus من خلال تطبيق SaaS، والذي من خلاله يقوم العملاء بإنشاء نماذج فيديو خاصة بهم تعمل بالذكاء الاصطناعي. تتطلب عملية الإعداد أن يقوم شخص ما، مثل الرئيس التنفيذي أو مدير المبيعات، لتسجيل فيديو مدته 15 دقيقة بناءً على نص قدمه تافوس.

استنساخ تافوس في العمل. اعتمادات الصورة: هل رأيت

يتم استخدام ذلك بعد ذلك لتدريب الذكاء الاصطناعي، وبعد ذلك ينتقل المستخدم إلى محرر الويب ويحدد أجزاء الفيديو التي يريد تخصيصها عن طريق تعيين المتغيرات، مثل الموقع أو اسم المخرج أو الشركة أو المنتج. من خلال دمج Tavus مع نظام إدارة علاقات العملاء الخاص بهم، يمكن للشركات تعديل كل من هذه المتغيرات لتكييفها مع شريحة معينة من العملاء، مثل أولئك الذين أعربوا عن اهتمامهم بمنتج معين.

تغيير المتغيرات. اعتمادات الصورة: هل رأيت

يمكن للشركات إنشاء المئات من هذه النسخ المتماثلة مع موظفين مختلفين، من خلفيات مختلفة وتستهدف أسواقًا مستهدفة مختلفة.

باستخدام المحرر داخل التطبيق، من الممكن إنشاء عدد غير محدود من النصوص البرمجية المختلفة لإرفاقها بكل حالة استخدام، دون الحاجة إلى إعادة تسجيل الفيديو الأصلي.

الصور الرمزية المختلفة لـ Tavus. اعتمادات الصورة: هل رأيت

على الرغم من أن منتج SaaS الأساسي هذا لن يختفي، تكشف Tavus اليوم عن نسخة توربو جديدة من تقنيتها بالإضافة إلى الجزء الأول من مجموعة واجهات برمجة التطبيقات للتطوير التي تسمح لأطراف ثالثة بالتكامل مع Tavus في تطبيقاتها الخاصة.

إعادة إنتاج

الوجه الأول لمنصة التطوير الجديدة لشركة Tavus هو “Replica API” الخاص بها، والذي يتضمن إنشاء نسخ متماثلة رقمية “صورة واقعية” مليئة بإنشاء تحويل النص إلى فيديو. من خلال هذا، يمكن للشركة تكرار شخص ما (على سبيل المثال، مسوق أو مدير تنفيذي) باستخدام نموذج ملكية جديد أنشأه تافوس يسمى “فينيكس”، استنادًا إلى طريقة التعلم العميق التي تسمى مجال الإشعاع العصبي (العصب). يمكن أن يؤدي ذلك إلى إنشاء بناء ثلاثي الأبعاد لشخص ما من صور ثنائية الأبعاد في دقائق معدودة.

قال رازا لـ TechCrunch: “إنه يسمح لك بشكل أساسي بإنشاء مقاطع فيديو كاملة باستخدام دقيقتين فقط من بيانات التدريب، وهي خطوة كبيرة إلى الأمام مقارنة بالطريقة التي قمنا بها سابقًا بالتخصيص على نطاق واسع”. “والآن كل ما عليك فعله هو تسجيل دقيقتين من بيانات التدريب، وسيقوم بإنشاء نسخة طبق الأصل كاملة منك. وبمجرد حصولك على إشارة، يمكنك إنشاء العديد من مقاطع الفيديو التي تريدها، من نص واحد أو اثنين أو ألف نص.

Tavus: محاكاة توضح كيف يقوم نموذج Phoenix NeRF بتخطيط وجه المستخدم لإنشاء نسخة طبق الأصل واقعية

محاكاة توضح كيفية رسم تافوس لوجه المستخدم لإنشاء نسخة طبق الأصل واقعية. اعتمادات الصورة: هل رأيت

يبني نموذج Phoenix الخاص بـ Tavus نموذجًا ثلاثي الأبعاد باستخدام إدخال فيديو ثنائي الأبعاد عبر حقول الإشعاع العصبي (NeRF).

النتيجة: يقوم نموذج Tavus Phoenix ببناء نموذج ثلاثي الأبعاد باستخدام إدخال فيديو ثنائي الأبعاد عبر NeRF. اعتمادات الصورة: هل رأيت

تعمل النسخة المتماثلة الأولى لواجهة برمجة التطبيقات (API) على تعزيز جميع ميزات نموذج Phoenix وتلتقط حركات وجه الفرد، بما في ذلك الخدين والأنف والحواجب والشفاه.

وأوضح رضا أن “تحريك وجهك بالكامل يعزز الواقعية والطبيعية والجودة. فعندما تتحدث، يعبر وجهك عن مشاعر تتجاوز حركة شفتيك”. “إذا كنت تريد إنشاء مقطع فيديو كاملاً من نص (تتحدث فيه، ويبدو طبيعيًا وبجودة عالية بشكل لا يصدق)، فيجب عليك استخدام Replica API.”

ومع ذلك، تعمل Tavus أيضًا على تطوير عدد من واجهات برمجة التطبيقات الإضافية، بما في ذلك واحدة مخصصة لمزامنة الشفاه، وواحدة للدبلجة، وواحدة لتقديم حملات فيديو مخصصة جماعية.

ستكون واجهة برمجة تطبيقات مزامنة الشفاه “بتكلفة دخول أقل”، وفقًا لرضا، وهي أفضل للمواقف التي “ليس من الضروري فيها الحصول على درجة عالية من الجودة والواقعية”.

من ناحية أخرى، تستخدم واجهة برمجة تطبيقات الدبلجة أيضًا نموذج مزامنة الشفاه، ولكنها تتضمن أيضًا استنساخ الصوت متعدد اللغات، مما يعني أن المستخدم الذي يتحدث لغة واحدة يمكنه إرسال حملات فيديو بأي عدد من اللغات باستخدام صوته الخاص. في هذه الحالة، نظرًا لأن معظم الفيديو سيظل كما هو، فإن واجهة برمجة التطبيقات تسمح باستبدال بسيط لحركات الشفاه لتتوافق مع الأصوات المختلفة القادمة من فم المستخدم. قد يكون هذا مفيدًا لمنشئي مجموعة برامج تحرير الفيديو، على سبيل المثال، عندما يريدون السماح لمستخدميهم بإضافة مزامنة الشفاه والتحرير والدبلجة إلى مقاطع الفيديو الخاصة بهم.

بعد ذلك، تقوم واجهة برمجة تطبيقات حملة الفيديو بشكل أساسي بتجميع واجهة برمجة التطبيقات Replica API بالإضافة إلى سلسلة من الأدوات الإضافية، مثل الاستضافة ورسم الخرائط المتغيرة والصور المصغرة والتحليلات، لأولئك الذين يتطلعون إلى تشغيل حملات فيديو واسعة النطاق.

وقال رضا: “نحن نقدم لأي مطور القدرة على تقديم تجربة حملة فيديو شاملة وغير تقليدية ضمن الحلول الخاصة به”. “على الرغم من أن واجهات برمجة تطبيقات الرد ومزامنة الشفاه هي بمثابة “نموذج كخدمة”، إلا أن واجهة برمجة تطبيقات الحملة تمنحك أدوات لإنشاء منصة لحملات فيديو تعمل بالذكاء الاصطناعي بسهولة.

وظل رضا خجولًا بشأن هوية بعض المستخدمين الأوائل لمنصة تافوس، لكنه قال إنها “تعمل مع واحدة من أكبر منصات الفيديو” لمشاركة العملاء. وقال رضا: “إنهم يتطلعون إلى جلب هذا إلى ملايين العملاء الذين يستخدمون منصتهم بالفعل لإنشاء مقاطع فيديو يوميًا”.

معضلة التزييف العميق

غريزيًا، منصات مثل Tavus جاهزة لسوء الاستخدام. ففي النهاية، ما الذي يمنع أي شخص من تنزيل مقطع فيديو موجود مسبقًا لإنشاء نسخة رقمية؟ التزييف العميق هي في الواقع أ قلق متزايد في حركة الذكاء الاصطناعي الناشئة، لكن رازا يقول إن لديها ضوابط لتجنب المشاحنات. على سبيل المثال، عندما يرسل المستخدم لقطات التدريب لمدة دقيقتين، يجب عليه أيضًا تقديم بيان موافقة شفهية محدد، والذي يتم بعد ذلك مواءمته مع الصوت الموجود في لقطات التدريب لضمان وجود تطابق.

وقال رضا: “نقوم بإجراء هذه الفحوصات تلقائيًا ثم نقوم بإجراء التحقق البشري لكل نسخة طبق الأصل تجتاز الفحوصات الآلية لضمان الأمان”.

من السهل أن نرى كيف يمكن أن يعمل هذا مع Tavus كتطبيق SaaS مستقل، ولكن الآن بعد أن أصبح منصة يمكن الوصول إليها لعدد من الشركات عبر واجهة برمجة التطبيقات، والتي تتحكم بعد ذلك في التحقق؟ حسنًا، اتضح أن Tavus هو: الشركة تريد إبقاء يدها على عجلة التحقق، حتى عندما تقوم ببساطة بتوفير المحرك لمطوري الطرف الثالث.

وتابع رضا: “نحن نجري نفس الفحوصات ونتحمل أيضًا مسؤولية عمليات التحقق باستخدام واجهة برمجة التطبيقات (API).”

امتداد للواقع

في حين أن OpenAI أصبح تقريبًا الوجه العام للذكاء الاصطناعي التوليدي، إلا أن هناك ما هو أكثر من كافٍ مساحة للاعبين المختلفين جلب شيء مختلف إلى هذا المزيج. في الواقع، في حين أن نموذج Sora الذي تم إصداره مؤخرًا من DALL-E وOpenAI يهدف في المقام الأول إلى مساعدة الأشخاص على إنشاء صور مرئية من المطالبات النصية، يقول رضا إن سبب وجود Tavus يدور حول “توسيع” واقع الشخص.

“إننا نرى مستقبلاً يرغب فيه الجميع في الحصول على نسخة رقمية طبق الأصل من أنفسهم؛ قال رضا: “إنهم يسيطرون على ذلك ولهم السلطة الكاملة على ذلك”. “وسيكون من المهم أن ينتهي الأمر بالتقاط المزيد والمزيد من شخصيتك، والمزيد والمزيد من إيماءاتك وسماتك الشخصية. هكذا نرى الأشياء تتطور: ستكون هناك نماذج تخلق أشياء غير موجودة، وبعد ذلك ستكون هناك نماذج توسع واقعك.

ومع وجود 18 مليون دولار في البنك، قال رضا إن ضخ الأموال النقدية الأخير من شأنه أن “يؤجج النار المشتعلة بالفعل” في أبراج تافوس.

وقال رضا: “نحن شركة أبحاث في مجال الذكاء الاصطناعي، لذلك نريد أن نكون قادرين على مواصلة تطوير نماذج أحدث مثل فينيكس”. “ولكن أيضًا لدعم نمونا، لدينا باستمرار الكثير من الطلب. ونريد أن نكون قادرين على توظيف فرق التعلم الآلي والهندسة لدينا باستمرار لدعم المطورين وعملاء SaaS.

Source link

Maywiltech12/03/2024

0 34 6 دقائق