كيف عطل روبوت OpenAI موقع الشركة المكون من سبعة أشخاص “مثل هجوم DDoS”
السبت، ثلاثية الجانجرز تم تنبيه الرئيس التنفيذي أولكسندر تومشوك إلى أن موقع التجارة الإلكترونية لشركته معطل. بدا الأمر وكأنه نوع من هجوم حجب الخدمة الموزع.
وسرعان ما اكتشف أن الجاني كان روبوت OpenAI الذي كان يحاول بلا هوادة تدمير موقعه الضخم بالكامل.
وقال تومشوك لـ TechCrunch: “لدينا أكثر من 65000 منتج، ولكل منتج صفحة”. “تحتوي كل صفحة على ثلاث صور على الأقل.”
كان OpenAI يرسل “عشرات الآلاف” من الطلبات إلى الخادم محاولًا تنزيل كل شيء من مئات الآلاف من الصور وأوصافها التفصيلية.
وقال عن عناوين IP التي استخدمها الروبوت لمحاولة استشارة موقعه: “استخدم OpenAI 600 عنوان IP لاستخراج البيانات، وما زلنا نحلل السجلات من الأسبوع الماضي، وقد يكون الأمر أكثر من ذلك بكثير”.
وقال: “كانت الروبوتات الخاصة بهم تسحق موقعنا”. “لقد كان في الأساس هجوم DDoS.”
موقع Triplegangers هو عملهم. أمضت الشركة المكونة من سبعة موظفين أكثر من عقد من الزمن في جمع ما تسميه أكبر قاعدة بيانات “للثنائي الرقمي البشري” على الويب، أي ملفات صور ثلاثية الأبعاد ممسوحة ضوئيًا من نماذج بشرية حقيقية.
تبيع ملفات الكائنات ثلاثية الأبعاد، بالإضافة إلى الصور (من الأيدي إلى الشعر إلى الجلد إلى الأجسام الكاملة) للفنانين ثلاثي الأبعاد ومنشئي ألعاب الفيديو وأي شخص يحتاج إلى إعادة إنشاء ميزات بشرية أصلية رقميًا.
فريق تومشوك، ومقره في أوكرانيا ولكنه مرخص أيضًا في الولايات المتحدة في تامبا، فلوريدا، لديه صفحة شروط الاستخدام على موقعه الذي يحظر على الروبوتات التقاط صوره دون تصريح. ولكن هذا وحده لم يفعل شيئا. يجب أن تستخدم مواقع الويب ملف robot.txt تم تكوينه بشكل صحيح مع علامات تخبر روبوت OpenAI، GTBot، على وجه التحديد، بترك الموقع بمفرده. (يحتوي OpenAI أيضًا على عدد قليل من الروبوتات الأخرى، ChatGPT-User وOAI-SearchBot، والتي لها علاماتها الخاصة، وفقًا لصفحة المعلومات الخاصة به على الروبوتات الخاصة به.)
تم إنشاء ملف Robot.txt، المعروف أيضًا باسم بروتوكول استبعاد الروبوتات، لإخبار مواقع محركات البحث بما لا يجب الزحف إليه عند فهرسة الويب. تقول OpenAI في صفحة المعلومات الخاصة بها إنها تحترم هذه الملفات عند تهيئتها بمجموعتها الخاصة من علامات عدم الزحف، على الرغم من أنها تحذر أيضًا من أن الأمر قد يستغرق ما يصل إلى 24 ساعة حتى تتعرف برامج الزحف الخاصة بها على ملف robot.txt المحدث.
وكما شهد تومشوك، إذا كان الموقع لا يستخدم ملف robot.txt بشكل صحيح، فإن OpenAI وآخرون يعتبرون ذلك يعني أنه يمكنهم الحصول على يوم ميداني. هذا ليس نظام العضوية.
ولزيادة الطين بلة، لم يقتصر الأمر على توقف Triplegangers عن الاتصال بالإنترنت بواسطة روبوت OpenAI أثناء ساعات العمل في الولايات المتحدة، ولكن Tomchuk يتوقع زيادة فاتورة AWS بفضل كل معالج النشاط وتنزيل الروبوت.
Robot.txt أيضًا ليس آمنًا من الفشل. تلتزم شركات الذكاء الاصطناعي طوعًا. وقد تورطت شركة ناشئة أخرى في مجال الذكاء الاصطناعي، وهي Perplexity، في الصيف الماضي من خلال تحقيق أجرته Wired. بينما أشارت بعض الأدلة إلى أن الحيرة لم تكن كذلك تكريمه.
لا أستطيع أن أعرف على وجه اليقين ما تم أخذه
بحلول يوم الأربعاء، بعد أيام قليلة من عودة روبوت OpenAI، كان Triplegangers قد قام بإعداد ملف robot.txt تم تكوينه بشكل صحيح، بالإضافة إلى حساب Cloudflare الذي تم تكوينه لحظر GPTBot الخاص به والعديد من الروبوتات الأخرى التي اكتشفها، مثل Barkrowler (زاحف SEO). وBytespider (زاحف TokTok). يأمل Tomchuk أيضًا في حظر برامج الزحف من شركات نماذج الذكاء الاصطناعي الأخرى. وأضاف أنه حتى صباح الخميس لم يتعطل الموقع.
لكن لا يزال لدى Tomchuk أي طريقة معقولة لمعرفة بالضبط ما تمكنت OpenAI من أخذه أو إزالته من هذه المواد. لم يتمكن من العثور على أي طريقة للاتصال بـ OpenAI والسؤال. لم يستجب OpenAI لطلب TechCrunch للتعليق. وقد قام OpenAI بذلك حتى الآن فشلت في تقديم أداة إلغاء الاشتراك الموعودة منذ فترة طويلةكما ذكرت TechCrunch مؤخرًا.
هذه مشكلة صعبة بشكل خاص بالنسبة لـ Triplegangers. وقال: “نحن في صناعة تعتبر فيها الحقوق قضية خطيرة، لأننا نقوم بتحليل الأشخاص الحقيقيين”. ومع وجود قوانين مثل اللائحة العامة لحماية البيانات في أوروبا، “لا يمكنهم التقاط صورة لأي شخص على الويب واستخدامها”.
كان موقع Triplegangers أيضًا بمثابة اكتشاف ممتع بشكل خاص لبرامج زحف الذكاء الاصطناعي. الشركات الناشئة بمليارات الدولارات، مثل Scale AIتم إنشاؤها حيث يقوم البشر بوضع علامات على الصور لتدريب الذكاء الاصطناعي. يحتوي موقع Triplegangers على صور مصنفة بالتفصيل: العرق، والعمر، والوشم مقابل الندبات، وجميع أنواع الجسم، والمزيد.
المفارقة هي أن جشع روبوت OpenAI هو الذي نبه Triplegangers إلى تعرضه للخطر. وقال إنه لو خدش بلطف أكبر، لما عرف تومشوك أبدًا.
يقول تومشوك: “إنه أمر مخيف لأنه يبدو أن هناك ثغرة تستخدمها هذه الشركات لاستخراج البيانات من خلال القول “يمكنك إلغاء الاشتراك إذا قمت بتحديث ملف robot.txt الخاص بك باستخدام علاماتنا”، لكن هذا يضع العبء على المالك الشركة للقيام بذلك.
إنه يريد من الشركات الصغيرة الأخرى عبر الإنترنت أن تعرف أن الطريقة الوحيدة لمعرفة ما إذا كان روبوت الذكاء الاصطناعي يأخذ ملكية محمية بحقوق الطبع والنشر من موقع ويب هو البحث عنها بنشاط. ومن المؤكد أنه ليس الوحيد الذي يتعرض للترهيب منهم. وقد صرح أصحاب المواقع الأخرى مؤخرا الأعمال من الداخل كيف عطلت روبوتات OpenAI مواقعها وأدت إلى ارتفاع فواتير AWS الخاصة بها.
نمت المشكلة في عام 2024. دراسة جديدة من شركة الإعلانات الرقمية DoubleVerify اكتشفت أن برامج الزحف AI وتسببت أدوات الكشط في زيادة بنسبة 86% في “حركة المرور العامة غير الصالحة” في عام 2024، أي حركة المرور التي لا تأتي من مستخدم حقيقي.
ومع ذلك، يحذر تومشوك من أن “معظم المواقع ليس لديها أي فكرة عن تعرضها للحذف من قبل هذه الروبوتات”. “نحتاج الآن إلى مراقبة نشاط السجل يوميًا لاكتشاف هذه الروبوتات.”
عندما تفكر في الأمر، فإن النموذج بأكمله يعمل إلى حد ما مثل ابتزاز المافيا: سوف تأخذ روبوتات الذكاء الاصطناعي ما تريد ما لم تكن محميًا.
يقول تومشوك: “عليهم أن يطلبوا الإذن، وليس مجرد الحصول على البيانات”.
تقدم TechCrunch رسالة إخبارية تركز على الذكاء الاصطناعي! سجل هنا لتلقيها في صندوق الوارد الخاص بك كل يوم أربعاء.
Source link