DataStax ساخت برنامه های مولد AI RAG را با API داده جدید آسان تر می کند

DataStax به دنبال ایجاد آسان‌تر برای توسعه‌دهندگان است تا برنامه‌های نسل افزوده بازیابی هوش مصنوعی (RAG) را با یک API داده جدید بسازند.

DataStax یکی از فروشندگان تجاری پیشرو در پشت پایگاه داده منبع باز Apache Cassandra است که پایه و اساس پایگاه داده ابری AstraDB به عنوان یک سرویس آن است. مانند بسیاری دیگر از فروشندگان پایگاه داده، DataStax اضافه کرده است قابلیت های پایگاه داده برداری به پلتفرم خود در سال ۲۰۲۳٫ در رویداد اخیر، مدیر عامل DataStax ادعا کرد که کاساندرا “بهترین پایگاه داده برای هوش مصنوعی نسل است.”

قابلیت پایگاه داده برداری برای فعال کردن برنامه‌های RAG که مدل‌های زبان بزرگ (LLM) را با پلتفرم‌های داده ترکیب می‌کنند تا نتایج بسیار دقیق و سفارشی‌سازی شده را ایجاد کنند، حیاتی است.

(اعتبار تصویر: DataStax)

در حالی که DataStax از جولای ۲۰۲۳ دارای قابلیت های برداری در AstraDB بوده است، این قابلیت همچنان به کاربران نیاز دارد که با زبان کاساندرا پرس و جو (CQL) به عنوان مسیر اصلی برای جستجوی داده ها کار کنند. API داده‌های جدید که امروز منتشر شد، آن را تغییر می‌دهد و به توسعه‌دهندگان امکان استفاده از زبان‌های برنامه‌نویسی پایتون و جاوا اسکریپت برای دسترسی به پایگاه داده را می‌دهد، که این شرکت ادعا می‌کند به کاهش شکاف بین DataStax و پایگاه‌داده برداری هدفمند مانند کمک می‌کند. کاج که به تازگی پلتفرم همنام خود را با آن به روز کرده است پایگاه داده بدون سرور عملکرد.

Ed Anuff، مدیر محصول DataStax به VentureBeat گفت: «یک نوع کشمکش بین پایگاه‌های داده برداری بومی که هیچ نوع جستجوی دیگری به جز بردارها را پشتیبانی نمی‌کنند و پایگاه‌های داده ترکیبی که مدل‌های جستجوی بسیار قوی دارند، وجود داشته است. “کاری که ما به دنبال انجام آن بودیم این بود که این شکاف را ببندیم و این چیزی است که API تاریخ در مورد آن است.”

چگونه DataStax data API نحوه ساخت برنامه‌های RAG را توسط توسعه‌دهندگان تغییر می‌دهد

API داده جدید هیچ قابلیت برداری جدیدی برای پایگاه داده AstraDB ارائه نمی دهد. در عوض کاری که انجام می دهد این است که ساخت برنامه ها را برای توسعه دهندگان آسان تر می کند.

به گفته Anuff، API جدید با هدف کاهش عدم تطابق امپدانس بین آنچه توسعه‌دهندگان انجام می‌دهند و آنچه پایگاه داده ارائه می‌دهد، است. Anuff اشاره کرد که از ژوئیه ۲۰۲۳ که قابلیت های برداری برای اولین بار در AstraDB قرار گرفت، تقریباً نیمی از کاربران جدیدی که برای پایگاه داده ابری ثبت نام کرده اند، از آن برای ساخت برنامه های کاربردی هوش مصنوعی استفاده می کنند.

چالش این است که آن توسعه‌دهندگان نمی‌توانستند به راحتی از زبان‌های برنامه‌نویسی که قبلاً برای ساختن برنامه‌های هوش مصنوعی استفاده می‌کردند، که عمدتاً Python و JavaScript هستند، برای دسترسی به AstraDB استفاده کنند.

قبل از API داده‌های جدید، توسعه‌دهندگانی که برنامه‌های هوش مصنوعی را با AstraDB می‌سازند باید از زبان استاندارد Cassandra Query (CQL) استفاده می‌کردند که شامل دانش مدل‌سازی داده‌های بیشتری نسبت به توسعه‌دهندگان می‌شد که برای برنامه‌های رک ساده با آن سروکار داشته باشند. پرس و جوها همچنین برای داده های برداری بهینه نشده بودند.

Anuff توضیح داد که API داده های جدید او با مدیریت خودکار بردارسازی، ارائه یک رابط ساده تر در زبان هایی مانند پایتون و جاوا اسکریپت، و بهینه سازی عملکرد با ذخیره و نمایه سازی داده های برداری کارآمدتر در سطح پایگاه داده به جای صرفاً افزودن بردارها، کار را آسان تر می کند. یک نوع داده دیگر این منحنی یادگیری را کاهش می‌دهد و عملکرد را در مقایسه با استفاده از API‌های موجود کاساندرا و مدل داده بهبود می‌بخشد.

همه چیز در مورد API ها است

با برخی از کلاس‌های API پایگاه‌داده، تنها چیزی که اتفاق می‌افتد شکلی از ترجمه از یک زبان برنامه‌نویسی بومی، مانند پایتون یا جاوا اسکریپت، به هر زبان پرس و جو برای پایگاه داده است. این از نظر عملکردی بسیار شبیه به یک رویکرد دهه‌های گذشته برای نحوه کار توسعه‌دهندگان با پایگاه‌های داده، از طریق Object Relational Mapper (ORM) است.

DataStax data API کمی متفاوت است زیرا Cassandra متفاوت از سایر پایگاه‌های داده طراحی شده است. Cassandra در سطح معماری حول مجموعه ای از اصول اولیه با کارایی بالا سازماندهی شده است که با هم ترکیب شده اند تا انواع مختلف الگوهای پرس و جو را پشتیبانی کنند. Anuff گفت که معماری داده Cassandra امکان اتصال در یک لایه عمیق تر در پایگاه داده را فراهم می کند که عملکرد کلی پرس و جو را بهبود می بخشد.

Anuff گفت: “API داده یک قالب داده بسیار ساده مبتنی بر JSON را در اختیار توسعه دهنده قرار می دهد، جایی که هر چیزی را که می توانید در JSON بیان کنید، توسعه دهنده می تواند آن را ارسال و از پایگاه داده بازیابی کند.” اما ما آن را به روشی بسیار کارآمد در کاساندرا ذخیره می‌کنیم، جایی که این کار را مستقیماً در سطح ذخیره‌سازی انجام می‌دهیم و اطمینان حاصل می‌کنیم که عملکردی که یک توسعه‌دهنده دریافت می‌کند حفظ می‌شود.»

بردارهای شتاب دهنده با موتور JVector

یکی دیگر از بخش های کلیدی پیشرفت پایگاه داده برداری DataStax این است JVector موتور جستجو که بخشی از AstraDB است. JVector یک موتور جستجوی وکتور جاسازی شده منبع باز است که توسط DataStax توسعه یافته است.

Anuff توضیح داد که JVector از الگوریتمی به نام DiskANN استفاده می‌کند که یک نسخه بهینه‌شده ذخیره‌سازی مبتنی بر دیسک از الگوریتم ANN (جستجوی تقریبی نزدیک‌ترین همسایه) است که به طور گسترده در تقریباً در تمام پایگاه‌های داده برداری استفاده می‌شود. او خاطرنشان کرد که DiskANN قابلیت بازیابی به طور قابل توجهی بهتری را در مقایسه با سایر الگوریتم‌هایی که در مقیاس‌های ذخیره‌سازی و توزیع بزرگ عمل نمی‌کنند، ارائه می‌کند.

به گفته DataStax، موتور JVector چیزی است که به AstraDB اجازه می دهد تا نسبت به سایر پایگاه های داده برداری به ارتباط و یادآوری بهتری دست یابد. بسیاری از کارهای بردار DataStax، از جمله JVector و data API، منبع باز هستند تا توسط جامعه منبع باز Cassandra و همچنین مشتریان AstraDB DataStax استفاده شوند.

Anuff گفت: “ما به شدت متعهد هستیم که چیزها را در اختیار اکوسیستم های منبع باز قرار دهیم.” ما همچنین فقط می‌خواهیم مطمئن شویم که اگر توسعه‌دهنده‌ای هستید که سعی می‌کنید بفهمید از چه سرویس ابری باید استفاده کنید، ساده‌ترین راه را برای آن دارید.»

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/datastax-makes-it-easier-to-build-generative-ai-rag-apps-with-new-data-api/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *