اپل با ایجاد ابزاری که از مدل های زبان بزرگ (LLM) برای متحرک سازی تصاویر استاتیک بر اساس درخواست های متنی کاربر استفاده می کند، افزوده دیگری به کارنامه رو به رشد هوش مصنوعی خود اضافه کرده است.
اپل این نوآوری را در یک مقاله تحقیقاتی جدید با عنوان “Keyframer: توانمندسازی طراحی انیمیشن با استفاده از مدل های زبان بزرگ.“
«در حالی که رابطهای تحریک یک شات در سیستمهای تجاری متن به تصویر مانند Dall·E و Midjourney رایج هستند، ما استدلال میکنیم که انیمیشنها به مجموعه پیچیدهتری از ملاحظات کاربر مانند زمانبندی و هماهنگی نیاز دارند که مشخص کردن کامل آنها دشوار است. یک اعلان واحد – بنابراین، رویکردهای جایگزینی که کاربران را قادر میسازد تا طرحهای تولید شده را بهطور تکراری بسازند و اصلاح کنند، ممکن است بهویژه برای انیمیشنها مورد نیاز باشد.
“ما اصول طراحی نوظهور را برای تحریک مبتنی بر زبان مصنوعات طراحی با قابلیتهای تولید کد LLMها ترکیب کردیم تا یک ابزار پویانمایی مبتنی بر هوش مصنوعی به نام Keyframer بسازیم. با Keyframer، کاربران میتوانند تصاویر متحرک را از تصاویر دو بعدی ایستا از طریق درخواست زبان طبیعی ایجاد کنند. با استفاده از GPT-4 3، Keyframer کد انیمیشن CSS را برای متحرک سازی یک گرافیک برداری مقیاس پذیر ورودی (SVG) تولید می کند.”
برای ایجاد یک انیمیشن، کاربر یک تصویر SVG – مثلاً از یک موشک فضایی – آپلود میکند و سپس عبارتی مانند «تولید سه طرح که در آن آسمان به رنگهای مختلف محو میشود و ستارهها چشمک میزنند» را تایپ میکند. سپس Keyframer کد CSS را برای انیمیشن تولید میکند و کاربر میتواند با ویرایش مستقیم کد یا با وارد کردن پیامهای متنی اضافی، آن را اصلاح کند.
نویسندگان توضیح میدهند: «Keyframer به کاربران این امکان را میدهد که طرحهای خود را بهطور مکرر از طریق درخواستهای متوالی اصلاح کنند، نه اینکه مجبور باشند کل طرح خود را از قبل در نظر بگیرند». از طریق این کار، ما امیدواریم که الهام بخش ابزارهای طراحی انیمیشن در آینده باشیم که قابلیت های تولیدی قدرتمند LLM ها را برای تسریع در ساخت نمونه اولیه طراحی با ویرایشگرهای پویا که سازندگان را قادر می سازد کنترل خلاقانه خود را حفظ کنند، ترکیب می کند.
بر اساس این مقاله، این تحقیق از طریق مصاحبه با طراحان و مهندسان حرفه ای انیمیشن صورت گرفته است. یکی از شرکت کنندگان در این مطالعه که در این مقاله نقل شده است، گفت: “فکر می کنم این بسیار سریعتر از بسیاری از کارهایی بود که انجام داده ام.” “من فکر می کنم انجام چنین کاری قبلاً فقط ساعت ها طول می کشید.”
این نوآوری تازهترین مورد از سری پیشرفتهای هوش مصنوعی اپل است. هفته گذشته، محققان اپل منتشر شد یک مدل هوش مصنوعی که از قدرت LLM های چندوجهی برای انجام ویرایش های سطح پیکسل روی تصاویر استفاده می کند.
در اواخر دسامبر، اپل نیز آشکار کرد این شرکت با ابداع روشی مبتکرانه در استفاده از حافظه فلش، پیشرفتهایی در استقرار LLM در آیفونها و سایر دستگاههای اپل با حافظه محدود داشته است.
هر دو اطلاعات و تحلیلگر جف پو گفته اند که اپل نوعی ویژگی هوش مصنوعی مولد را در دسترس خواهد داشتآیفونو آی پد در اواخر سالچه زمانی iOS 18 منتشر می شود. گفته می شود نسخه بعدی نرم افزار موبایل اپل شامل یک نسخه پیشرفته سیری با عملکرد هوش مصنوعی مولد مانند ChatGPT و پتانسیل تبدیل شدن به “بزرگترین” به روز رسانی در تاریخ آیفون را دارد. بلومبرگ گزارشگر مارک گورمن.
(از طریق VentureBeat.)
منبع: https://www.macrumors.com/2024/02/14/apple-research-ai-tool-animates-images/