مدل جدید تولید ویدئو با هوش مصنوعی VideoPoet گوگل باورنکردنی به نظر می رسد

آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.


همین دیروز من پرسیدم اگر گوگل یک محصول هوش مصنوعی را در اولین تلاش منتشر کند. سؤال و پاسخ را در نظر بگیرید – حداقل با نگاهی به آخرین تحقیقات آن.

این هفته گوگل خودنمایی کرد VideoPoetیک مدل زبان بزرگ جدید (LLM) که برای انواع وظایف تولید ویدیو توسط تیمی متشکل از ۳۱ محقق در Google Research طراحی شده است.

این واقعیت که تیم تحقیقاتی گوگل یک LLM برای این کارها ساخته است، به خودی خود قابل توجه است. همانطور که در پیش بررسی خود می نویسند مقاله تحقیقاتیاکثر مدل‌های موجود از روش‌های مبتنی بر انتشار استفاده می‌کنند که اغلب به عنوان بهترین عملکرد فعلی در تولید ویدیو در نظر گرفته می‌شوند. این مدل‌های ویدیویی معمولاً با یک مدل تصویر از پیش آموزش‌دیده‌شده، مانند Stable Diffusion، شروع می‌شوند که تصاویری با کیفیت بالا برای فریم‌های جداگانه تولید می‌کند، و سپس مدل را برای بهبود ثبات زمانی در فریم های ویدئویی به خوبی تنظیم کنید.

در مقابل، به جای استفاده از یک مدل انتشار مبتنی بر محبوب – و بحث برانگیز انتشار پایدار تصویر/تصویر منبع باز تولید کننده هوش مصنوعی — تیم تحقیقاتی گوگل تصمیم گرفت از LLM استفاده کند، نوع متفاوتی از مدل هوش مصنوعی بر اساس معماری ترانسفورماتور، که معمولاً برای تولید متن و کد، مانند ChatGPT، Claude 2، یا Llama استفاده می شود. ۲٫ اما تیم Google Research به جای آموزش آن برای تولید متن و کد، آن را برای تولید ویدیو آموزش داد.

رویداد VB

تور AI Impact Tour

در تور AI Impact VentureBeat که به شهر نزدیک شما می آید، با جامعه هوش مصنوعی سازمانی ارتباط برقرار کنید!

بیشتر بدانید

پیش تمرین کلید بود

آن‌ها این کار را با «پیش‌آموزش» VidePoet LLM روی ۲۷۰ میلیون ویدیو و بیش از ۱ میلیارد جفت متن و تصویر از «اینترنت عمومی و سایر منابع» انجام دادند، و به‌طور خاص، این داده‌ها را به جاسازی‌های متنی، نشانه‌های بصری تبدیل کردند. و نشانه های صوتی، که مدل هوش مصنوعی بر روی آنها “شرطی” شده است.

نتایج بسیار شگفت انگیز است، حتی در مقایسه با برخی از پیشرفته ترین مدل های تولید ویدیوی مصرف کننده مانند باند و پیکاسابق الف سرمایه گذاری گوگل.

کلیپ های طولانی تر و با کیفیت بالاتر با حرکت ثابت تر

بیشتر از این، تیم تحقیقاتی گوگل خاطرنشان می کند که رویکرد تولید کننده ویدیوی LLM آنها ممکن است در واقع امکان کلیپ های طولانی تر و با کیفیت بالاتر را فراهم کند و برخی از محدودیت ها و مشکلات مربوط به هوش مصنوعی تولید کننده ویدیو مبتنی بر انتشار فعلی را حذف کند، جایی که حرکت سوژه ها در ویدیو تمایل دارد پس از چند فریم خراب یا پرگل می شود.

دو تن از اعضای تیم، دن کوندراتیوک و دیوید راس، در مقاله ای نوشتند: «یکی از تنگناهای فعلی در تولید ویدیو، توانایی تولید حرکات بزرگ منسجم است. پست وبلاگ تحقیق گوگل اعلام کار در بسیاری از موارد، حتی مدل‌های پیشرو کنونی یا حرکت کوچک ایجاد می‌کنند یا هنگام تولید حرکات بزرگ‌تر، مصنوعات قابل توجهی را به نمایش می‌گذارند.»

GIF متحرک نشان می دهد که چگونه هوش مصنوعی VideoPoet در Google Research می تواند تصاویر ثابت را متحرک کند. اعتبار: Google Research

در مقابل، VideoPoet می‌تواند بر اساس نمونه‌هایی که محققان آنلاین ارسال کرده‌اند، حرکت بزرگ‌تر و ثابت‌تری را در بین ویدیوهای طولانی‌تر ۱۶ فریم ایجاد کند. همچنین امکان ایجاد طیف وسیع تری از قابلیت ها را از همان ابتدا فراهم می کند، از جمله شبیه سازی حرکات دوربین مختلف، سبک های مختلف بصری و زیبایی شناختی، حتی تولید صدای جدید برای مطابقت با یک کلیپ ویدیویی مشخص. همچنین طیف وسیعی از ورودی‌ها از جمله متن، تصاویر و ویدیوها را برای خدمت به عنوان درخواست کنترل می‌کند.

VideoPoet با ادغام همه این قابلیت‌های تولید ویدیو در یک LLM، نیاز به چندین مؤلفه تخصصی را از بین می‌برد و راه‌حلی یکپارچه و همه‌جانبه برای ایجاد ویدیو ارائه می‌دهد.

در واقع، بینندگانی که توسط تیم تحقیقاتی گوگل مورد بررسی قرار گرفتند، آن را ترجیح دادند. محققان کلیپ‌های ویدیویی تولید شده توسط VideoPoet را به تعداد نامشخصی از «ارزش‌دهنده‌های انسانی» و همچنین کلیپ‌های تولید شده توسط مدل‌های انتشار ویدئویی Source-1، VideoCrafter و Phenaki را نشان دادند که دو کلیپ را در یک زمان در کنار هم نشان می‌داد. ارزیاب های انسانی تا حد زیادی کلیپ های VideoPoet را از نظر خود برتر ارزیابی کردند.

همانطور که در پست وبلاگ Google Research خلاصه شده است: “به طور متوسط ​​​​مردم ۲۴-۳۵٪ از نمونه های VideoPoet را به عنوان دستورهای زیر بهتر از یک مدل رقیب در مقابل ۸-۱۱٪ برای مدل های رقیب انتخاب کردند. رتبه دهندگان همچنین ۴۱-۵۴٪ از نمونه ها را ترجیح دادند. VideoPoet برای حرکت جالب تر از ۱۱-۲۱٪ برای مدل های دیگر. همچنین می توانید نتایج را در قالب نمودار میله ای در زیر مشاهده کنید.

برای ویدیوی عمودی ساخته شده است

Google Research VideoPoet را برای تولید ویدیوها در جهت عمودی به طور پیش‌فرض یا «ویدئوی عمودی» برای بازار ویدیوی موبایلی که توسط Snap و TikTok محبوب شده است، طراحی کرده است.

نمونه ای از یک ویدیوی عمودی ایجاد شده توسط Google Research’s VideoPoet LLM. اعتبار: Google Research

با نگاهی به آینده، Google Research در نظر دارد قابلیت‌های VideoPoet را برای پشتیبانی از وظایف نسل «هر به هر»، مانند تبدیل متن به صدا و صوت به ویدیو، گسترش دهد، و مرزهای امکان‌پذیر در تولید ویدیو و صدا را بیشتر کند.

در حال حاضر تنها یک مشکل با VideoPoet وجود دارد: در حال حاضر برای استفاده عمومی در دسترس نیست. ما برای اطلاعات بیشتر در مورد اینکه چه زمانی ممکن است در دسترس قرار گیرد با Google تماس گرفته‌ایم و پس از شنیدن پاسخ به‌روزرسانی خواهیم شد. اما تا آن زمان، باید مشتاقانه منتظر ورود آن باشیم تا ببینیم واقعاً چگونه با سایر ابزارهای موجود در بازار مقایسه می شود.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/googles-new-videopoet-multimodal-ai-video-generation-model-looks-incredible/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *