محققان اپل دارند منتشر شد یک مدل جدید AI منبع باز که قادر به ویرایش تصاویر بر اساس دستورالعمل های زبان طبیعی کاربر (از طریق VentureBeat).
این برنامه که “MGIE” نامیده می شود، مخفف MLLM-Guided Image Editing است، از مدل های زبان بزرگ چندوجهی (MLLMs) برای تفسیر درخواست های کاربر و انجام دستکاری در سطح پیکسل استفاده می کند.
این مدل قابلیت ویرایش جنبه های مختلف تصاویر را دارد. بهبودهای جهانی عکس می تواند شامل روشنایی، کنتراست یا وضوح یا استفاده از جلوه های هنری مانند طراحی باشد. ویرایش محلی می تواند شکل، اندازه، رنگ یا بافت مناطق یا اشیاء خاص را در یک تصویر تغییر دهد، در حالی که تغییرات به سبک فتوشاپ می تواند شامل برش، تغییر اندازه، چرخش و افزودن فیلترها یا حتی تغییر پس زمینه و ترکیب تصاویر باشد.
ورودی کاربر برای عکس یک پیتزا می تواند “سالم تر جلوه دادن آن” باشد. با استفاده از استدلال عقل سلیم، این مدل میتواند رویههای سبزیجات مانند گوجهفرنگی و سبزی را اضافه کند. یک درخواست ورودی بهینهسازی جهانی ممکن است به شکل «افزودن کنتراست برای شبیهسازی نور بیشتر» باشد، در حالی که یک اصلاح به سبک فتوشاپ میتواند با درخواست از مدل برای حذف افراد از پسزمینه عکس، تغییر فوکوس تصویر به سمت عکس انجام شود. حالت چهره سوژه
اپل با محققان دانشگاه کالیفرنیا برای ایجاد MGIE همکاری کرد که در یک ارائه شد کاغذ در کنفرانس بینالمللی نمایشهای یادگیری (ICLR) 2024. این مدل در GitHub موجود است و شامل کد، دادهها و مدلهای از پیش آموزشدیده شده است.
این دومین پیشرفت اپل در تحقیقات هوش مصنوعی در چند ماه اخیر است. در اواخر دسامبر، اپل فاش کرد که با اختراع مدلهای زبان بزرگ (LLM) روی آیفونها و دیگر دستگاههای اپل با حافظه محدود پیشرفتهای زیادی کرده است. تکنیک خلاقانه استفاده از حافظه فلش.
در چند ماه گذشته، اپل در حال آزمایش یک رقیب “Apple GPT” بوده است که می تواند با ChatGPT رقابت کند. مطابق با بلومبرگمارک گورمن، کار بر روی هوش مصنوعی برای اپل در اولویت قرار دارد و این شرکت در حال طراحی چارچوب “آژاکس” برای مدل های زبان بزرگ است.
هر دو اطلاعات و تحلیلگر جف پو ادعا می کند که اپل نوعی ویژگی هوش مصنوعی مولد را در iPhone و iPad خواهد داشت. حدود اواخر سال ۲۰۲۴، زمانی است که iOS 18 منتشر می شود. گفته می شود iOS 18 شامل یک نسخه پیشرفته سیری با عملکرد هوش مصنوعی مولد ChatGPT، و پتانسیل تبدیل شدن به “بزرگترین” نرم افزار به روز رسانی در تاریخ آیفون را دارد. به گفته گورمان.
منبع: https://www.macrumors.com/2024/02/07/apple-ai-model-edits-images-natural-language/