تشفير

تقوم LanceDB، التي تعتبر Midjourney كعميل لها، ببناء قواعد بيانات للذكاء الاصطناعي متعدد الوسائط

يتمتع Chang She، نائب الرئيس السابق للهندسة في Tubi وCloudera، بسنوات من الخبرة في بناء أدوات البيانات والبنية التحتية. ولكن عندما بدأت العمل في مجال الذكاء الاصطناعي، سرعان ما واجهت مشاكل في البنية التحتية التقليدية للبيانات، وهي المشاكل التي منعتها من وضع نماذج الذكاء الاصطناعي في الإنتاج.

وقالت لـ TechCrunch في مقابلة: “غالبًا ما يواجه مهندسو التعلم الآلي والباحثون في مجال الذكاء الاصطناعي تجربة تطوير سيئة”. “لا تفهم شركات البنية التحتية للبيانات حقًا مشكلة بيانات التعلم الآلي على المستوى الأساسي. »

تعاون سو تشانغ – وهو أحد المبدعين المشاركين في مكتبة Pandas، مكتبة علوم بيانات بايثون ذات الشعبية الكبيرة – مع مهندس البرمجيات لي شو للمشاركة في الإطلاق لانس دي بي.

تقوم LanceDB بتطوير برنامج قاعدة بيانات LanceDB مفتوح المصدر، المصمم لدعم نماذج الذكاء الاصطناعي متعددة الوسائط – النماذج التي تقوم بتدريب وإنشاء الصور ومقاطع الفيديو والمزيد بالإضافة إلى النص. بدعم من Y Combinator، جمعت LanceDB هذا الشهر 8 ملايين دولار في جولة تمويل أولية بقيادة CRV وEssence VC وSwift Ventures، ليصل إجمالي المبلغ الذي تم جمعه إلى 11 مليون دولار.

قال تشانغ: “إذا كان الذكاء الاصطناعي متعدد الوسائط أمرًا بالغ الأهمية لنجاح شركتك في المستقبل، فأنت تريد أن يركز فريق الذكاء الاصطناعي عالي التكلفة لديك على النموذج وربط الذكاء الاصطناعي بقيمة الأعمال”. “لسوء الحظ، تقضي فرق الذكاء الاصطناعي اليوم معظم وقتها في التعامل مع تفاصيل البنية التحتية للبيانات منخفضة المستوى. يوفر LanceDB الأساس الذي تحتاجه فرق الذكاء الاصطناعي حتى يتمكنوا من التركيز بحرية على ما يهم حقًا لقيمة الأعمال وتقديم منتجات الذكاء الاصطناعي إلى السوق بشكل أسرع بكثير مما كان ممكنًا.

LanceDB هي في الأساس قاعدة بيانات متجهة – قاعدة بيانات تحتوي على سلسلة من الأرقام (“المتجهات”) التي تشفر معنى البيانات غير المنظمة (مثل الصور والنصوص وما إلى ذلك).

وكما كتب زميلي بول ساورز مؤخراً: قواعد بيانات المتجهات عش لفترة من الوقت مع وصول دورة الضجيج للذكاء الاصطناعي إلى ذروتها. في الواقع، إنها مفيدة لجميع أنواع تطبيقات الذكاء الاصطناعي، بدءًا من توصيات المحتوى المتعلقة بالتجارة الإلكترونية ومنصات التواصل الاجتماعي وحتى الخصومات الهلوسة.

المنافسة شرسة في قواعد بيانات المتجهات – راجع Qdrant، وVespa، وWeaviate، وPinecone، وChroma على سبيل المثال لا الحصر (دون احتساب كبير تكنولوجيا حوامل). إذن ما الذي يجعل LanceDB فريدًا؟ مرونة وأداء وقابلية توسع أفضل، وفقًا لتشانغ.

من ناحية، يقول تشانغ، LanceDB – الذي بني عليه سهم أباتشي – مدعوم بتنسيق بيانات مخصص، Lance Format، المُحسّن للتدريب والتحليل متعدد الوسائط للذكاء الاصطناعي. يسمح Lance Format لـ LanceDB بإدارة ما يصل إلى مليارات من المتجهات والبيتا بايت من النصوص والصور والفيديو، ويسمح للمهندسين بإدارة أشكال مختلفة من البيانات الوصفية المرتبطة بتلك البيانات.

وقال تشانغ: “حتى الآن، لم يكن هناك نظام يمكنه توحيد التدريب على البيانات على نطاق واسع، واستكشافها، والبحث عنها، ومعالجتها”. “يُمكّن Lance Format الباحثين والمهندسين في مجال الذكاء الاصطناعي من الحصول على مصدر واحد للحقيقة وتحقيق أداء فائق السرعة عبر مسار الذكاء الاصطناعي بأكمله. لا يتعلق الأمر فقط بتخزين المتجهات.

تجني LanceDB الأموال من خلال بيع إصدارات مُدارة بالكامل من برامجها مفتوحة المصدر مع ميزات إضافية مثل تسريع الأجهزة وضوابط الإدارة – ويبدو أن الأعمال تسير بشكل جيد. تتضمن قائمة عملاء الشركة منصة Midjourney لتركيب النص إلى الصورة، وبرنامج Chatbot يونيكورن Character.ai، وشركة WeRide الناشئة للسيارات ذاتية القيادة، وAirtable.

وأصر تشانغ على أن دعم رأس المال الاستثماري الأخير الذي قدمته LanceDB لن يصرف انتباهه عن المشروع مفتوح المصدر، والذي قال إنه يشهد حاليًا حوالي 600000 عملية تنزيل شهريًا.

وقال: “أردنا إنشاء شيء من شأنه أن يجعل الأمر أسهل بعشر مرات لفرق الذكاء الاصطناعي التي تعمل مع بيانات واسعة النطاق ومتعددة الوسائط”. “يقدم LanceDB – وسيستمر في تقديم – مجموعة غنية جدًا من عمليات تكامل النظام البيئي لتقليل جهود التبني.”


Source link

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى