لماذا تواجه قواعد بيانات المتجهات وقتًا عصيبًا مع وصول دورة الضجيج للذكاء الاصطناعي إلى ذروتها؟
قواعد بيانات المتجهات هي هو كل هذا الغضب، إذا حكمنا من خلال عدد الشركات الناشئة التي تدخل هذا المجال والمستثمرين الذين يصطفون للحصول على قطعة من الكعكة. ال الانتشار نماذج اللغات الكبيرة (LLM) و الذكاء الاصطناعي التوليدي لقد خلقت (GenAI) أرضًا خصبة لازدهار تقنيات قواعد بيانات المتجهات.
في حين أن قواعد البيانات العلائقية التقليدية مثل Postgres أو MySQL مناسبة تمامًا للبيانات المنظمة (أنواع البيانات المحددة مسبقًا والتي يمكن تصنيفها بدقة إلى صفوف وأعمدة)، إلا أنها لا تعمل بشكل جيد مع البيانات غير المنظمة مثل الصور ومقاطع الفيديو ورسائل البريد الإلكتروني والشبكات الاجتماعية. المنشورات وأي بيانات لا تلتزم بنموذج بيانات محدد مسبقًا.
من ناحية أخرى، تقوم قواعد بيانات المتجهات بتخزين البيانات ومعالجتها في شكل تضمينات متجهة، والتي تحول النصوص والمستندات والصور والبيانات الأخرى إلى تمثيلات رقمية تلتقط المعنى والعلاقات بين نقاط مختلفة من البيانات. يعد هذا مثاليًا للتعلم الآلي لأن قاعدة البيانات تقوم بتخزين البيانات مكانيًا بناءً على مدى صلة كل عنصر بالآخر، مما يسهل استرداد البيانات المتشابهة لغويًا.
يعد هذا مفيدًا بشكل خاص لـ LLMs، مثل OpenAI’s GPT-4، لأنه يسمح لروبوت الدردشة AI بفهم سياق المحادثة بشكل أفضل من خلال تحليل المحادثات المماثلة السابقة. La recherche vectorielle est également utile pour toutes sortes d’applications en temps réel, telles que les recommandations de contenu sur les réseaux sociaux ou les applications de commerce électronique, car elle peut examiner ce qu’un utilisateur a recherché et récupérer des éléments similaires en غمزة.
يمكن أن تساعد أبحاث المتجهات أيضًا في تقليل “الهلوسة» في تطبيقات LLM، مما يوفر معلومات إضافية ربما لم تكن متوفرة في مجموعة بيانات التدريب الأصلية.
“بدون استخدام بحث تشابه المتجهات، لا يزال بإمكانك تطوير تطبيقات الذكاء الاصطناعي/التعلم الآلي، ولكنك ستحتاج إلى إجراء المزيد من إعادة التدريب والضبط الدقيق. » أندريه زيارنيالرئيس التنفيذي والمؤسس المشارك لشركة ناشئة للبحث عن المتجهات قدررانتوأوضح ل TechCrunch. “يتم تشغيل قواعد بيانات المتجهات عندما تكون هناك مجموعة بيانات كبيرة وتحتاج إلى أداة للعمل مع تضمينات المتجهات بكفاءة وسهولة.”
في يناير، حصل Qdrant 28 مليون دولار في التمويل للاستفادة من النمو الذي أدى إلى أن تصبح واحدة من أفضل 10 شركات تجارية مفتوحة المصدر الأسرع نموًا في العام الماضي. وهي ليست قاعدة بيانات المتجهات الوحيدة التي قامت بجمع الأموال مؤخرًا – فيسبا, نسج, مخروط الصنوبرو صفاء جمعت بشكل جماعي 200 مليون دولار في العام الماضي لعروض المتجهات المختلفة.
منذ بداية العام، شهدنا أيضًا شركة Index Ventures قيادة جولة تمويل بقيمة 9.5 مليون دولار في رابط فائق، منصة تقوم بتحويل البيانات المعقدة إلى تضمينات متجهة. وقبل بضعة أسابيع، Y Combinator (YC) كشفت عن مجموعة شتاء 24الذي فهم فانوسشركة ناشئة تبيع محرك بحث متجهًا مستضافًا لـ Postgres.
مكان آخر، ماركو أثار أ جولة تمويلية بقيمة 4.4 مليون دولار في نهاية العام الماضي، وسرعان ما تبعه أ الجولة الأولى بقيمة 12.5 مليون دولار في فبراير. توفر منصة Marqo مجموعة كاملة من أدوات المتجهات الجاهزة للاستخدام، والتي تغطي إنشاء المتجهات وتخزينها واسترجاعها، مما يسمح للمستخدمين بتجاوز أدوات الطرف الثالث مثل OpenAI أو Hugging Face، ويقدم كل شيء عبر واجهة برمجة تطبيقات واحدة.
المؤسسون المشاركون لشركة ماركو توم هامر و جيسي ن. كلارك شغل سابقا مناصب هندسية في أمازون، حيث أدركوا “الحاجة الهائلة التي لم تتم تلبيتها” للبحث الدلالي والمرن عبر طرق مختلفة مثل النصوص والصور. وذلك عندما قفزوا من السفينة ليشكلوا ماركو في عام 2021.
قال كلارك في TechCrunch: “أثناء العمل مع البحث المرئي والروبوتات في أمازون، نظرت حقًا إلى البحث المتجهي – كنت أفكر في طرق جديدة لاكتشاف المنتجات، وقد تقارب ذلك بسرعة كبيرة مع البحث المتجهي”. “في مجال الروبوتات، كنت أستخدم البحث متعدد الوسائط للبحث في الكثير من الصور لدينا لتحديد ما إذا كانت هناك أي عناصر ضائعة مثل الأنابيب والتغليف. وإلا لكان حل هذه المشكلة صعباً للغاية.
أدخل العمل
على الرغم من أن قواعد البيانات المتجهة تمر بلحظة وسط ضجة ChatGPT وحركة GenAI، إلا أنها ليست حلاً سحريًا لجميع سيناريوهات البحث في المؤسسات.
“تميل قواعد البيانات المخصصة إلى التركيز بشكل كامل على حالات استخدام محددة، وبالتالي يمكنها تصميم بنيتها بناءً على أداء المهام المطلوبة، بالإضافة إلى تجربة المستخدم، مقارنة بقواعد البيانات للأغراض العامة، والتي يجب أن تتكيف مع التصميم الحالي. بيير زايتسيفوقال مؤسس شركة دعم وخدمات قاعدة البيانات بيركونا لـ TechCrunch.
على الرغم من أن قواعد البيانات المتخصصة قد تتفوق في مجال واحد دون غيرها، إلا أن هذا هو السبب الذي جعلنا نبدأ في رؤية ذلك أصحاب قاعدة البيانات حيث المرن, ريديس, فتح البحث, كاساندرا, وحيو MongoDB عن طريق إضافة إمكانات بحث ذكية في قاعدة بيانات المتجهات، تمامًا مثل مقدمي الخدمات السحابية مايكروسوفت أزور, أمازون أوسو سحابة مضيئة.
يقارن زايتسيف هذا الاتجاه الأخير بما حدث مع JSON منذ أكثر من عقد من الزمن، عندما أصبحت تطبيقات الويب أكثر انتشارًا وكان المطورون بحاجة إلى تنسيق بيانات مستقل عن اللغة كان من السهل على البشر قراءته وكتابته. في هذه الحالة، ظهرت فئة جديدة من قواعد البيانات في شكل قواعد بيانات المستندات. مثل MongoDBبينما قواعد البيانات العلائقية الموجودة مقدمة لدعم JSON.
قال زايتسيف لـ TechCrunch: “أعتقد أن الشيء نفسه سيحدث على الأرجح مع قواعد البيانات المتجهة”. “سيستخدم المستخدمون الذين يقومون ببناء تطبيقات ذكاء اصطناعي معقدة للغاية وواسعة النطاق قواعد بيانات بحث متجهة مخصصة، في حين أن أولئك الذين يحتاجون إلى إنشاء القليل من وظائف الذكاء الاصطناعي لتطبيقاتهم الحالية هم أكثر عرضة لاستخدام وظيفة بحث المتجهات في قواعد البيانات التي يستخدمونها بالفعل. »
لكن زايارني وزملاؤه في شركة Qdrant يراهنون على أن الحلول الأصلية المبنية بالكامل حول المتجهات ستوفر “السرعة وأمان الذاكرة وقابلية التوسع” المطلوبة مع انفجار بيانات المتجهات، مقارنة بالشركات الرائدة في البحث عن المتجهات بعد ذلك.
قال زيارني: “إن عرضهم هو: يمكننا أيضًا إجراء بحث عن المتجهات، إذا لزم الأمر”. “عرضنا هو: “نحن نقوم بإجراء بحث متقدم عن المتجهات بأفضل طريقة ممكنة.” الأمر كله يتعلق بالتخصص. نوصي في الواقع بالبدء بقاعدة البيانات الموجودة لديك بالفعل في مجموعتك التقنية. في مرحلة ما، سيواجه المستخدمون قيودًا إذا كان البحث المتجه جزءًا أساسيًا من الحل الذي تقدمه.
Source link