DataStax به دنبال ایجاد آسانتر برای توسعهدهندگان است تا برنامههای نسل افزوده بازیابی هوش مصنوعی (RAG) را با یک API داده جدید بسازند.
DataStax یکی از فروشندگان تجاری پیشرو در پشت پایگاه داده منبع باز Apache Cassandra است که پایه و اساس پایگاه داده ابری AstraDB به عنوان یک سرویس آن است. مانند بسیاری دیگر از فروشندگان پایگاه داده، DataStax اضافه کرده است قابلیت های پایگاه داده برداری به پلتفرم خود در سال ۲۰۲۳٫ در رویداد اخیر، مدیر عامل DataStax ادعا کرد که کاساندرا “بهترین پایگاه داده برای هوش مصنوعی نسل است.”
قابلیت پایگاه داده برداری برای فعال کردن برنامههای RAG که مدلهای زبان بزرگ (LLM) را با پلتفرمهای داده ترکیب میکنند تا نتایج بسیار دقیق و سفارشیسازی شده را ایجاد کنند، حیاتی است.

در حالی که DataStax از جولای ۲۰۲۳ دارای قابلیت های برداری در AstraDB بوده است، این قابلیت همچنان به کاربران نیاز دارد که با زبان کاساندرا پرس و جو (CQL) به عنوان مسیر اصلی برای جستجوی داده ها کار کنند. API دادههای جدید که امروز منتشر شد، آن را تغییر میدهد و به توسعهدهندگان امکان استفاده از زبانهای برنامهنویسی پایتون و جاوا اسکریپت برای دسترسی به پایگاه داده را میدهد، که این شرکت ادعا میکند به کاهش شکاف بین DataStax و پایگاهداده برداری هدفمند مانند کمک میکند. کاج که به تازگی پلتفرم همنام خود را با آن به روز کرده است پایگاه داده بدون سرور عملکرد.
Ed Anuff، مدیر محصول DataStax به VentureBeat گفت: «یک نوع کشمکش بین پایگاههای داده برداری بومی که هیچ نوع جستجوی دیگری به جز بردارها را پشتیبانی نمیکنند و پایگاههای داده ترکیبی که مدلهای جستجوی بسیار قوی دارند، وجود داشته است. “کاری که ما به دنبال انجام آن بودیم این بود که این شکاف را ببندیم و این چیزی است که API تاریخ در مورد آن است.”
چگونه DataStax data API نحوه ساخت برنامههای RAG را توسط توسعهدهندگان تغییر میدهد
API داده جدید هیچ قابلیت برداری جدیدی برای پایگاه داده AstraDB ارائه نمی دهد. در عوض کاری که انجام می دهد این است که ساخت برنامه ها را برای توسعه دهندگان آسان تر می کند.
به گفته Anuff، API جدید با هدف کاهش عدم تطابق امپدانس بین آنچه توسعهدهندگان انجام میدهند و آنچه پایگاه داده ارائه میدهد، است. Anuff اشاره کرد که از ژوئیه ۲۰۲۳ که قابلیت های برداری برای اولین بار در AstraDB قرار گرفت، تقریباً نیمی از کاربران جدیدی که برای پایگاه داده ابری ثبت نام کرده اند، از آن برای ساخت برنامه های کاربردی هوش مصنوعی استفاده می کنند.
چالش این است که آن توسعهدهندگان نمیتوانستند به راحتی از زبانهای برنامهنویسی که قبلاً برای ساختن برنامههای هوش مصنوعی استفاده میکردند، که عمدتاً Python و JavaScript هستند، برای دسترسی به AstraDB استفاده کنند.
قبل از API دادههای جدید، توسعهدهندگانی که برنامههای هوش مصنوعی را با AstraDB میسازند باید از زبان استاندارد Cassandra Query (CQL) استفاده میکردند که شامل دانش مدلسازی دادههای بیشتری نسبت به توسعهدهندگان میشد که برای برنامههای رک ساده با آن سروکار داشته باشند. پرس و جوها همچنین برای داده های برداری بهینه نشده بودند.
Anuff توضیح داد که API داده های جدید او با مدیریت خودکار بردارسازی، ارائه یک رابط ساده تر در زبان هایی مانند پایتون و جاوا اسکریپت، و بهینه سازی عملکرد با ذخیره و نمایه سازی داده های برداری کارآمدتر در سطح پایگاه داده به جای صرفاً افزودن بردارها، کار را آسان تر می کند. یک نوع داده دیگر این منحنی یادگیری را کاهش میدهد و عملکرد را در مقایسه با استفاده از APIهای موجود کاساندرا و مدل داده بهبود میبخشد.
همه چیز در مورد API ها است
با برخی از کلاسهای API پایگاهداده، تنها چیزی که اتفاق میافتد شکلی از ترجمه از یک زبان برنامهنویسی بومی، مانند پایتون یا جاوا اسکریپت، به هر زبان پرس و جو برای پایگاه داده است. این از نظر عملکردی بسیار شبیه به یک رویکرد دهههای گذشته برای نحوه کار توسعهدهندگان با پایگاههای داده، از طریق Object Relational Mapper (ORM) است.
DataStax data API کمی متفاوت است زیرا Cassandra متفاوت از سایر پایگاههای داده طراحی شده است. Cassandra در سطح معماری حول مجموعه ای از اصول اولیه با کارایی بالا سازماندهی شده است که با هم ترکیب شده اند تا انواع مختلف الگوهای پرس و جو را پشتیبانی کنند. Anuff گفت که معماری داده Cassandra امکان اتصال در یک لایه عمیق تر در پایگاه داده را فراهم می کند که عملکرد کلی پرس و جو را بهبود می بخشد.
Anuff گفت: “API داده یک قالب داده بسیار ساده مبتنی بر JSON را در اختیار توسعه دهنده قرار می دهد، جایی که هر چیزی را که می توانید در JSON بیان کنید، توسعه دهنده می تواند آن را ارسال و از پایگاه داده بازیابی کند.” اما ما آن را به روشی بسیار کارآمد در کاساندرا ذخیره میکنیم، جایی که این کار را مستقیماً در سطح ذخیرهسازی انجام میدهیم و اطمینان حاصل میکنیم که عملکردی که یک توسعهدهنده دریافت میکند حفظ میشود.»
بردارهای شتاب دهنده با موتور JVector
یکی دیگر از بخش های کلیدی پیشرفت پایگاه داده برداری DataStax این است JVector موتور جستجو که بخشی از AstraDB است. JVector یک موتور جستجوی وکتور جاسازی شده منبع باز است که توسط DataStax توسعه یافته است.
Anuff توضیح داد که JVector از الگوریتمی به نام DiskANN استفاده میکند که یک نسخه بهینهشده ذخیرهسازی مبتنی بر دیسک از الگوریتم ANN (جستجوی تقریبی نزدیکترین همسایه) است که به طور گسترده در تقریباً در تمام پایگاههای داده برداری استفاده میشود. او خاطرنشان کرد که DiskANN قابلیت بازیابی به طور قابل توجهی بهتری را در مقایسه با سایر الگوریتمهایی که در مقیاسهای ذخیرهسازی و توزیع بزرگ عمل نمیکنند، ارائه میکند.
به گفته DataStax، موتور JVector چیزی است که به AstraDB اجازه می دهد تا نسبت به سایر پایگاه های داده برداری به ارتباط و یادآوری بهتری دست یابد. بسیاری از کارهای بردار DataStax، از جمله JVector و data API، منبع باز هستند تا توسط جامعه منبع باز Cassandra و همچنین مشتریان AstraDB DataStax استفاده شوند.
Anuff گفت: “ما به شدت متعهد هستیم که چیزها را در اختیار اکوسیستم های منبع باز قرار دهیم.” ما همچنین فقط میخواهیم مطمئن شویم که اگر توسعهدهندهای هستید که سعی میکنید بفهمید از چه سرویس ابری باید استفاده کنید، سادهترین راه را برای آن دارید.»
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/datastax-makes-it-easier-to-build-generative-ai-rag-apps-with-new-data-api/