يدعي Reddit أنه حصل على 203 ملايين دولار من ترخيص بياناته حتى الآن

Maywiltech22/02/2024

0 25 2 دقائق

إن آفاق Reddit أثناء تحركها نحو الإدراج في سوق الأوراق المالية لها علاقة كبيرة بالعلاقات مع بائعي الذكاء الاصطناعي مثل OpenAI أكثر مما قد يعتقده المرء.

في نشرة الاكتتاب العام قدمت اليوم جنبا إلى جنب مع هيئة الأوراق المالية والبورصة الأمريكية، سلط موقع ريديت الضوء مرارا وتكرارا على مدى اعتقاده بأنه اكتسب – وما اكتسبه – من صفقات ترخيص البيانات مع الشركات التي تدرب نماذج الذكاء الاصطناعي على أكثر من مليار منشور وأكثر من 16 مليار تعليق.

وجاء في نشرة الإصدار: “في يناير 2024، أبرمنا اتفاقيات معينة لترخيص البيانات بقيمة تعاقدية إجمالية تبلغ 203.0 مليون دولار ومدة تتراوح من سنتين إلى ثلاث سنوات”. “نتوقع أن يتم الاعتراف بما لا يقل عن 66.4 مليون دولار من الإيرادات في السنة المالية المنتهية في 31 ديسمبر 2024 والباقي بعد ذلك.”

الآن، يظل لغزًا فيما يتعلق بموردي الذكاء الاصطناعي الذين يقومون بترخيص بيانات Reddit حتى الآن. في وقت سابق من هذا الأسبوع، بلومبرج ورويترز ذكرت أن “شركة ذكاء اصطناعي كبيرة مجهولة المصدر” – ربما جوجل – أبرمت صفقة ترخيص تبلغ قيمتها حوالي 60 مليون دولار على أساس سنوي. لكن OpenAI لن تكون عميلاً مفاجئًا أيضًا، خاصة وأن الرئيس التنفيذي لشركة OpenAI Sam Altman يمتلك حصة سوقية تبلغ 8.7%. رهان على Reddit (مما يجعلها ثالث أكبر مساهم) وكان سابقًا عضوًا في مجلس إدارة الشركة.

لماذا تعتبر بيانات Reddit ذات قيمة؟ كما يوضح Reddit، “تتعلم” نماذج الذكاء الاصطناعي من الأمثلة لإنشاء المقالات والأكواد ورسائل البريد الإلكتروني والمقالات والمزيد، ويقوم مقدمو الخدمة مثل OpenAI بالبحث في الويب عن أمثلة، الملايين أو حتى المليارات من هذه الأمثلة لإضافتها إلى مجموعات التدريب الخاصة بهم. بعض الأمثلة موجودة في المجال العام. والبعض الآخر لا يخضع، أو في حالة محتوى Reddit، لتراخيص مقيدة تتطلب الاستشهاد أو أشكالًا محددة من التعويض.

في السابق، لم يكن Reddit يتحكم في الوصول إلى بياناته لأغراض التدريب على الذكاء الاصطناعي. لكن الاتجاه انعكس العام الماضي، يجادل وأن بياناتها لا ينبغي – على حد تعبير الرئيس التنفيذي ستيف هوفمان – “(إعطاؤها) مجاناً لبعض من أكبر الشركات في العالم”.

“إن واجهات برمجة التطبيقات للبيانات (الخاصة بنا) قادرة على توفير الوصول في الوقت الفعلي إلى الموضوعات المتطورة والديناميكية مثل الرياضة والأفلام والأخبار والأزياء وأحدث الاتجاهات”، تستمر النشرة. “نحن نعتقد أن مجموعة Reddit الهائلة من البيانات ومعرفة المحادثة ستستمر في لعب دور في تدريب وتحسين نماذج اللغات الكبيرة. مع تحديث المحتوى الخاص بنا وتوسيعه يوميًا، نتوقع أن ترغب العارضات في عكس هذه الأفكار الجديدة وتحديث تدريبهن باستخدام بيانات Reddit.

يتجه منتجو المحتوى، من مكتبات الوسائط إلى ناشري الأخبار، بشكل متزايد إلى صفقات ترخيص البيانات مع موفري الذكاء الاصطناعي مثل روبوتات الدردشة مثل OpenAI. ChatGPT وتلك الخاصة بجوجل تَوأَم تهدد بتقويض حركة المرور. نموذج حديث من المحيط الأطلسي يجد أنه إذا قام محرك بحث مثل Google بدمج الذكاء الاصطناعي في البحث، فسوف يجيب على استفسار المستخدم بنسبة 75٪ من الوقت دون الحاجة إلى النقر على موقعه على الويب.

وفي المقابل، تم الضغط على البائعين للدخول في صفقات ترخيص، حيث يواجهون طوفانًا من الدعاوى القضائية التي تزعم أنه ليس لديهم أي مبرر قانوني لتدريب نماذجهم على البيانات دون إذن أو دفع. في الآونة الأخيرة، نيويورك تايمز المتهم OpenAI لخلق منافسة فعالة لناشري الأخبار الذين يستخدمون أعمالها، وبالتالي الإضرار بأعمالها.

لدى OpenAI، على سبيل المثال، اتفاقيات مع معرض للصور صراع الأسهم وكذلك الناشرين، بما في ذلك أكسل سبرينغر، مالك Politico و Business Insider. التراخيص هي ذكرت تكون صغيرة جدًا، على الرغم من أنها تصل إلى 5 ملايين دولار سنويًا.

Source link

Maywiltech22/02/2024

0 25 2 دقائق