سیب امروزه یکی از برترین بازیکنان در بازی هوش مصنوعی نیست، اما مدل جدید AI منبع باز این شرکت برای ویرایش تصویر نشان می دهد که چه چیزی می تواند به فضا کمک کند. این مدل MLLM-Guided Image Editing (MGIE) نامیده می شود که از مدل های زبان بزرگ چندوجهی (MLLMs) برای تفسیر دستورات مبتنی بر متن هنگام دستکاری تصاویر استفاده می کند. به عبارت دیگر، این ابزار توانایی ویرایش عکسها را بر اساس متنی که کاربر تایپ میکند را دارد. در حالی که این اولین ابزاری نیست که میتواند این کار را انجام دهد. "دستورالعملهای انسانی گاهی برای روشهای فعلی بسیار مختصر هستند که نمیتوان آنها را دریافت و دنبال کرد." را کاغذ پروژه (PDF) می خواند.
این شرکت MGIE را با محققان دانشگاه کالیفرنیا، سانتا باربارا توسعه داد. MLLM ها این قدرت را دارند که پیام های متنی ساده یا مبهم را به دستورالعمل های دقیق تر و واضح تر تبدیل کنند که خود ویرایشگر عکس می تواند از آنها پیروی کند. به عنوان مثال، اگر کاربری بخواهد عکسی از پیتزا فلفلی را ویرایش کند "آن را سالم تر کنید" MLLM ها می توانند آن را به این صورت تفسیر کنند "مواد سبزیجات را اضافه کنید" و عکس را به این صورت ویرایش کنید.
علاوه بر ایجاد تغییرات عمده در تصاویر، MGIE همچنین میتواند عکسها را برش داده، اندازه آن را تغییر دهد و بچرخاند، همچنین روشنایی، کنتراست و تعادل رنگ را از طریق پیامهای متنی بهبود میبخشد. همچنین میتواند قسمتهای خاصی از یک عکس را ویرایش کند و برای مثال میتواند موها، چشمها و لباسهای یک فرد را در آن اصلاح کند یا عناصر پسزمینه را حذف کند.
مانند VentureBeat یادداشت ها، اپل این مدل را از طریق منتشر کرد GitHubاما علاقه مندان می توانند یک را نیز امتحان کنند نسخه ی نمایشی که در حال حاضر در Hugging Face Spaces میزبانی می شود. اپل هنوز نگفته است که آیا قصد دارد از آموخته های خود از این پروژه در ابزار یا ویژگی استفاده کند که بتواند در هر یک از محصولات خود گنجانده شود.
این مقاله در ابتدا در Engadget در https://www.engadget.com/apple-releases-an-ai-model-that-can-edit-images-based-on-text-based-commands-081646262.html?src منتشر شد. = rss
منبع: https://www.engadget.com/apple-releases-an-ai-model-that-can-edit-images-based-on-text-based-commands-081646262.html?src=rss