تخطط Vana للسماح للمستخدمين باستئجار بيانات Reddit الخاصة بهم لتدريب الذكاء الاصطناعي

Maywiltech13/04/2024

0 9 5 دقائق

في التوليد طفرة الذكاء الاصطناعي، البيانات هي النفط الجديد. فلماذا لا تستطيع بيع ما تملكه؟

من شركات التكنولوجيا الكبرى إلى الشركات الناشئة، يقوم منشئو الذكاء الاصطناعي بترخيص الكتب الإلكترونية والصور ومقاطع الفيديو والملفات الصوتية والمزيد من وسطاء البيانات، كل ذلك في محاولة لإنشاء أشخاص أكثر قدرة (وأكثر الدفاع عنها قانونيا) المنتجات القائمة على الذكاء الاصطناعي. لدى شترستوك عروض مع Meta وGoogle وAmazon وApple لتوفير ملايين الصور للتدريب على النماذج، بينما قامت OpenAI بذلك الاتفاقيات الموقعة مع العديد من وكالات الأنباء لتدريب نماذجها على أرشيف الأخبار.

في كثير من الحالات، لم يشهد منشئو هذه البيانات وأصحابها الأفراد تغييرًا في فلس واحد من المال. شركة ناشئة تسمى فانا يريد تغيير ذلك.

آنا كازلاوسكاس وآرت أبال، اللذان التقيا في فصل دراسي في مختبر الوسائط بمعهد ماساتشوستس للتكنولوجيا ركز على خلق التكنولوجيا للأسواق الناشئة، شاركا في تأسيس شركة فانا في عام 2021. قبل فانا، درس كازلاوسكاس علوم الكمبيوتر والاقتصاد في معهد ماساتشوستس للتكنولوجيا، والذي تركه في النهاية لإطلاق شركة التكنولوجيا المالية. بدء التشغيل الآلي، Iambiq، على Y Combinator. كان أبال، وهو محامي أعمال من خلال التدريب والتعليم، شريكًا في مجموعة Cadmus Group، وهي شركة استشارية مقرها بوسطن، قبل أن يقود عملية الشراء المؤثرة في شركة Appen لتعليق البيانات.

مع فانا، شرع كازلاوسكاس وأبال في إنشاء منصة تتيح للمستخدمين “تجميع” بياناتهم – بما في ذلك المحادثات والتسجيلات الصوتية والصور – في مجموعات بيانات يمكن استخدامها بعد ذلك لتدريب نماذج الذكاء الاصطناعي التوليدية. كما يريدون أيضًا إنشاء تجارب أكثر تخصيصًا – على سبيل المثال، رسائل صوتية تحفيزية يومية استنادًا إلى أهدافك الصحية أو تطبيق إبداعي يفهم تفضيلات أسلوبك – من خلال تحسين النماذج العامة بناءً على هذه البيانات.

وقال Kazlauskas لـ TechCrunch: “إن البنية التحتية لـ Vana تخلق في الواقع كنزًا من البيانات المملوكة للمستخدم”. “إنها تفعل ذلك من خلال السماح للمستخدمين بتجميع بياناتهم الشخصية بطريقة غير محافظة… تتيح Vana للمستخدمين امتلاك نماذج الذكاء الاصطناعي واستخدام بياناتهم في تطبيقات الذكاء الاصطناعي.” »

هذه هي الطريقة فانا تقدم منصتها وواجهة برمجة التطبيقات (API) للمطورين:

تقوم Vana API بتوصيل البيانات الشخصية للمستخدم عبر الأنظمة الأساسية… للسماح لك بتخصيص تطبيقك. يتمتع تطبيقك بإمكانية الوصول الفوري إلى نموذج الذكاء الاصطناعي المخصص للمستخدم أو البيانات الأساسية، مما يبسط عملية الإعداد ويزيل مشكلات التكلفة الحسابية… نعتقد أنه يجب أن يكون المستخدمون قادرين على استيراد بياناتهم الشخصية من الحدائق المسورة، مثل Instagram وFacebook وGoogle، إلى تطبيقك، لذلك يمكنك إنشاء تجربة شخصية مذهلة من المرة الأولى التي يتفاعل فيها المستخدم مع تطبيق الذكاء الاصطناعي الخاص بالمستهلك.

إنشاء حساب مع Vana أمر بسيط للغاية. بعد تأكيد بريدك الإلكتروني، يمكنك إرفاق البيانات بالصورة الرمزية الرقمية (مثل الصور الشخصية ووصفك والتسجيلات الصوتية) واستكشاف التطبيقات التي تم إنشاؤها باستخدام النظام الأساسي وتعيين البيانات من Vana. يتراوح اختيار التطبيقات من روبوتات الدردشة على غرار ChatGPT والكتب القصصية التفاعلية إلى منشئ ملف التعريف المفصلي.

اعتمادات الصورة: فانا

والآن قد تتساءل لماذا – في عصر الوعي المتزايد بخصوصية البيانات وهجمات برامج الفدية – هل يمكن لأي شخص أن يعطي معلوماته الشخصية لشركة ناشئة مجهولة، ناهيك عن شركة ناشئة ممولة برأس المال الاستثماري؟ (Vana a déjà levé 20 millions de dollars auprès de Paradigm, Polychain Capital et d’autres bailleurs de fonds.) Peut-on vraiment faire confiance à une entreprise à but lucratif pour ne pas abuser ou mal gérer les données monétisables sur lesquelles elle met اليد ؟

اعتمادات الصورة: فانا

ردًا على هذا السؤال، أكد كازلاوسكاس أن الهدف الرئيسي لـ Vana هو أن “يستعيد المستخدمون السيطرة على بياناتهم”، مشيرًا إلى أن مستخدمي Vana لديهم خيار استضافة بياناتهم ذاتيًا بدلاً من تخزينها على خوادم Vana والتحكم في كيفية عملهم. تتم استضافة البيانات. تتم مشاركة البيانات مع التطبيقات والمطورين. وقالت أيضًا إنه نظرًا لأن Vana تجني الأموال عن طريق فرض اشتراك شهري على المستخدمين (يبدأ من 3.99 دولارًا أمريكيًا) وفرض رسوم “معاملات البيانات” على المطورين (على سبيل المثال لنقل مجموعات البيانات لتدريب نماذج الذكاء الاصطناعي)، فليس لدى الشركة أي حافز لاستغلال المستخدمين و البيانات الشخصية التي يجلبونها معهم.

وقال كازلاوسكاس: “نريد إنشاء نماذج يملكها ويديرها المستخدمون الذين يجلبون جميعهم بياناتهم، ونسمح للمستخدمين بإحضار بياناتهم ونماذجهم معهم في أي تطبيق”.

الآن بينما فانا لا تبيع شركة أمازون بيانات المستخدم للشركات لتدريب نماذج الذكاء الاصطناعي التوليدية (على الأقل هذا ما تدعي)، فهي تريد السماح للمستخدمين بالقيام بذلك بأنفسهم إذا أرادوا ذلك، من خلال البدء بمشاركاتهم على Reddit.

هذا الشهر، أطلقت فانا ما تسميه Reddit Data DAO (المنظمة الرقمية المستقلة)، وهو برنامج يجمع بيانات Reddit الخاصة بالعديد من المستخدمين (بما في ذلك الكارما الخاصة بهم وسجل النشر) ويتيح لهم أن يقرروا معًا كيفية استخدام هذه البيانات المجمعة. بعد الانضمام إلى حساب Reddit، أرسل أ طلب على Reddit لبياناتهم ومن خلال تحميل تلك البيانات إلى DAO، يحصل المستخدمون على حق التصويت جنبًا إلى جنب مع أعضاء DAO الآخرين على قرارات مثل ترخيص البيانات المجمعة لشركات الذكاء الاصطناعي التوليدية لتحقيق ربح مشترك.

لقد قمنا بتحليل الأرقام وأصبح r/datadao الآن أكبر DAO للبيانات في التاريخ: رحبت المرحلة الأولى بـ 141000 من مستخدمي Reddit مع 21000 تنزيل بيانات كاملة.

– ص / داتاداو (@rdatadao) 11 أبريل 2024

هذا نوع من الرد على Reddit الحركات الأخيرة لتسويق البيانات على منصتها.

في السابق، لم يضمن Reddit الوصول إلى المنشورات والمجتمعات لأغراض التدريب على الذكاء الاصطناعي. لكنها عكست مسارها في أواخر العام الماضي، قبل الاكتتاب العام. منذ تغيير السياسة، حصل Reddit على أكثر من 203 مليون دولار من رسوم الترخيص من الشركات بما في ذلك Google.

وقال كازلاوسكاس: “الفكرة العامة (مع DAO هي) تحرير بيانات المستخدم من المنصات الرئيسية التي تسعى إلى تجميعها واستثمارها”. “هذا هو الأول وجزء من جهودنا لمساعدة الأشخاص على تجميع بياناتهم في مجموعات بيانات مملوكة للمستخدم لتدريب نماذج الذكاء الاصطناعي.”

ومن غير المستغرب أن موقع Reddit – الذي لا يعمل رسميًا مع Vana – ليس سعيدًا بـ DAO.

رديت حظرت فانا com.subreddit مخصصة لمناقشة DAO. واتهم متحدث باسم Reddit شركة Vana بـ “استغلال” نظام تصدير البيانات الخاص بها، المصمم للامتثال للوائح خصوصية البيانات مثل القانون العام لحماية البيانات وقانون خصوصية المستهلك في كاليفورنيا.

وقال المتحدث لـ TechCrunch: “تسمح لنا ترتيبات البيانات لدينا بوضع حواجز حماية على هذه الكيانات، حتى على المعلومات العامة”. “لا تشارك Reddit البيانات الشخصية غير العامة مع الشركات التجارية، وعندما يطلب Redditors تصدير بياناتهم منا، فإنهم يتلقون منا بيانات شخصية غير عامة وفقًا للقوانين المعمول بها. شراكات مباشرة بين Reddit والمنظمات المعتمدة، بشروط ومسؤوليات واضحة، وتمنع هذه الشراكات والاتفاقيات إساءة استخدام بيانات الأشخاص وإساءة استخدامها.

ولكن هل لدى Reddit أي سبب حقيقي للقلق؟

يتصور Kazlauskas أن DAO ينمو إلى الحد الذي سيؤثر فيه على المبلغ الذي يمكن لـ Reddit تحصيله من العملاء مقابل بياناته. وهذا بعيد كل البعد عن الواقع، على افتراض حدوثه على الإطلاق؛ يضم DAO ما يزيد قليلاً عن 141000 عضو، وهو جزء صغير من مستخدمي Reddit البالغ عددهم 73 مليونًا. وقد يكون بعض هؤلاء الأعضاء روبوتات أو حسابات مكررة.

ثم هناك مسألة كيفية التوزيع العادل للمدفوعات التي قد تتلقاها DAO من مشتري البيانات.

حاليًا، تمنح DAO “الرموز المميزة” – العملة المشفرة – للمستخدمين المتوافقين مع Reddit الخاص بهم. كارما. لكن الكارما قد لا تكون المقياس الأفضل لجودة المساهمات في مجموعة البيانات، خاصة في مجتمعات Reddit الأصغر التي لديها فرص أقل لكسب المساهمات.

يطرح Kazlauskas فكرة أنه يمكن لأعضاء DAO اختيار مشاركة بياناتهم عبر الأنظمة الأساسية والديموغرافية، مما يجعل DAO أكثر قيمة ويحفز عمليات الاشتراك. ولكنه سيتطلب أيضًا من المستخدمين أن يثقوا في Vana بشكل أكبر للتعامل مع بياناتهم الحساسة بمسؤولية.

أنا شخصياً لا أرى DAO الخاص بـ Vana يصل إلى الكتلة الحرجة. والعقبات التي تقف في الطريق كثيرة جداً. ومع ذلك، أظن أن هذه لن تكون المحاولة الشعبية الأخيرة لتأكيد السيطرة على البيانات المستخدمة على نحو متزايد لتدريب نماذج الذكاء الاصطناعي التوليدية.

الشركات الناشئة مثل تفرخ يعملون على إيجاد طرق تتيح للمبدعين فرض قواعد تحكم كيفية استخدام بياناتهم لأغراض التدريب، بينما يواصل مقدمو الخدمات مثل Getty Images وShutterstock وAdobe القيام بذلك. تجربة أنظمة التعويض. لكن لم يتمكن أحد من فك الكود بعد. هل يمكن حتى يكون كسر؟ نظرا إلى سفاح طبيعة بالنسبة لصناعة الذكاء الاصطناعي التوليدي، يعد هذا بالتأكيد أمرًا صعبًا. ولكن ربما يجد شخص ما طريقة ما ــ أو قد يفرضها صناع السياسات.

Source link