شبیه‌سازی صدای AI منبع باز با مدل OpenVoice جدید MyShell وارد می‌شود

در ۱۰ ژانویه به رهبران سانفرانسیسکو بپیوندید تا یک شب منحصر به فرد شبکه، بینش و گفتگو داشته باشید. درخواست دعوت اینجا.

استارت‌آپ‌هایی که به طور فزاینده‌ای شناخته شده‌اند یازده آزمایشگاه میلیون‌ها دلار جمع‌آوری کرده‌اند تا الگوریتم‌های اختصاصی و نرم‌افزار هوش مصنوعی خود را برای ساخت کلون‌های صوتی ایجاد کنند – برنامه‌های صوتی که صدای کاربران را تقلید می‌کنند.

اما راه حل جدیدی در راه است، OpenVoiceتوسط محققان موسسه فناوری ماساچوست (MIT)، دانشگاه Tsinghua در پکن، چین و اعضای استارتاپ هوش مصنوعی کانادایی توسعه یافته است. MyShellبرای ارائه شبیه‌سازی صوتی منبع باز که تقریباً فوری است و کنترل‌های دانه‌ای را ارائه می‌دهد که در دیگر پلتفرم‌های شبیه‌سازی صوتی یافت نمی‌شوند.

MyShell در پستی امروز در حساب کاربری رسمی شرکت خود در تاریخ نوشت: “صداها را با دقتی بی نظیر، با کنترل دقیق لحن، از احساس گرفته تا لهجه، ریتم، مکث و لحن، تنها با استفاده از یک کلیپ صوتی کوچک، شبیه سازی کنید.” ایکس.

امروز، ما با افتخار الگوریتم OpenVoice خود را منبع باز می کنیم و از اخلاق اصلی خود – هوش مصنوعی برای همه استقبال می کنیم.

اکنون آن را تجربه کنید: https://t.co/zHJpeVpX3t. صداهای کلون با دقتی بی نظیر، با کنترل دقیق لحن، از احساسات گرفته تا لهجه، ریتم، مکث و لحن، تنها با استفاده از یک… pic.twitter.com/RwmYajpxOt

— MyShell (@myshell_ai) 2 ژانویه ۲۰۲۴

این شرکت همچنین پیوندی به آن ارائه کرده است مقاله پژوهشی از پیش بازبینی شده شرح چگونگی توسعه OpenVoice و پیوندهایی به مکان‌هایی که کاربران می‌توانند به آن دسترسی داشته باشند و آن را امتحان کنند، از جمله رابط برنامه وب MyShell (که برای دسترسی به آن نیاز به یک حساب کاربری دارد) و صورت در آغوش گرفته (که بدون حساب کاربری به صورت عمومی قابل دسترسی است).

رویداد VB

تور تاثیر هوش مصنوعی

رسیدن به یک طرح مدیریتی هوش مصنوعی – برای رویداد ۱۰ ژانویه دعوت نامه درخواست کنید.

بیشتر بدانید

با استفاده از OpenVoice

در آزمایش‌های غیرعلمی خود از مدل شبیه‌سازی صوتی جدید در HuggingFace، توانستم با استفاده از گفتار کاملاً تصادفی، یک کلون نسبتاً قانع‌کننده – البته تا حدودی رباتیک – از صدای خودم به سرعت و در عرض چند ثانیه ایجاد کنم.

بر خلاف سایر برنامه‌های شبیه‌سازی صدا، من مجبور نشدم تکه خاصی از متن را بخوانم تا OpenVoice صدای من را شبیه‌سازی کند. من به سادگی برای چند ثانیه به طور غیرمستقیم صحبت کردم، و مدل یک کلون صوتی ایجاد کرد که می‌توانستم تقریباً بلافاصله آن را پخش کنم و متنی را که ارائه کردم را بخوانم.

من همچنین توانستم “سبک” را بین چندین حالت پیش فرض تنظیم کنم – شاد، غمگین، دوستانه، عصبانی و غیره – با استفاده از یک منوی کشویی، و تغییر قابل توجهی را در لحن برای مطابقت با این احساسات مختلف شنیدم.

در اینجا نمونه ای از شبیه سازی صدای من است که توسط OpenVoice از طریق HuggingFace با لحن سبک “دوستانه” تنظیم شده است.

چگونه OpenVoice ساخته شد

در مقاله علمی خود، چهار خالق OpenVoice – Zengyi Qin از MIT و MyShell، Wenliang Zhao و Xumin Yu از دانشگاه Tsinghua و Xin Sun از MyShell – رویکرد خود را برای ایجاد هوش مصنوعی شبیه‌سازی صدا توصیف می‌کنند.

OpenVoice در واقع از دو مدل هوش مصنوعی مختلف تشکیل شده است: یک مدل متن به گفتار (TTS) و یک “تبدیل آهنگ”.

اولین مدل «پارامترهای سبک و زبان‌ها» را کنترل می‌کند و بر روی ۳۰۰۰۰ جمله «نمونه‌های صوتی از دو انگلیسی زبان (لهجه آمریکایی و انگلیسی)، یک سخنران چینی و یک سخنران ژاپنی» آموزش داده شد، که هر کدام بر اساس احساسات بیان شده برچسب‌گذاری شده بودند. در آنها. او همچنین لحن، ریتم و مکث را از این کلیپ ها یاد گرفت.

در همین حال، مدل مبدل تن بر روی بیش از ۳۰۰۰۰۰ نمونه صوتی از بیش از ۲۰۰۰۰ بلندگوی مختلف آموزش داده شد.

در هر دو مورد، صدای گفتار انسان به تبدیل شد واج ها – صداهای خاصی که کلمات را از یکدیگر متمایز می کند – و با جاسازی های برداری نشان داده می شود.

با استفاده از “اسپیکر پایه” برای مدل TTS، و سپس ترکیب آن با لحن به دست آمده از صدای ضبط شده ارائه شده توسط کاربر، این دو مدل با هم می توانند صدای کاربر را بازتولید کنند و همچنین “رنگ تن” خود را تغییر دهند. بیان احساسی متنی که گفته می شود. در اینجا یک نمودار موجود در مقاله تیم OpenVoice آمده است که نحوه کار این دو مدل را با هم نشان می دهد:

این تیم خاطرنشان می کند که رویکرد آنها از نظر مفهومی بسیار ساده است، اما به خوبی کار می کند و قادر است صداها را با استفاده از منابع محاسباتی بسیار کمتری نسبت به روش های دیگر شبیه سازی کند، از جمله مدل شبیه‌سازی صدای رقیب متا Voicebox.

چه کسی پشت OpenVoice است؟

MyShell، در سال ۲۰۲۳ در کلگری، آلبرتا، استان کانادا، با دور دانه ۵٫۶ میلیون دلاری بر اساس گزارشات، به رهبری INCE Capital با سرمایه گذاری اضافی از Folius Ventures، Hashkey Capital، SevenX Ventures، TSVC و OP Crypto، در حال حاضر بیش از ۴۰۰۰۰۰ کاربر دارد. ساس نیوز.

این استارت‌آپ خود را به‌عنوان یک پلتفرم غیرمتمرکز و جامع برای کشف، ایجاد و قرار دادن اپلیکیشن‌های بومی هوش مصنوعی توصیف می‌کند.

علاوه بر ارائه OpenVoice، برنامه وب این شرکت شامل مجموعه‌ای از کاراکترها و ربات‌های مبتنی بر متن مختلف هوش مصنوعی با «شخصیت‌های» متفاوت – مشابه Character.AI – از جمله برخی از شخصیت‌های NSFW است. همچنین شامل یک سازنده GIF متحرک و RPG های متنی تولید شده توسط کاربر است که برخی از ویژگی های دارای حق چاپ مانند هری پاتر و مارول حق رای دادن

اگر MyShell در حال ساخت OpenVoice منبع باز باشد، چگونه قصد دارد درآمد داشته باشد؟ شرکت اشتراک ماهانه را شارژ می کند برای کاربران برنامه وب آن، و همچنین برای سازندگان ربات های شخص ثالث که می خواهند محصولات خود را در برنامه تبلیغ کنند. همچنین برای داده های آموزشی هوش مصنوعی هزینه می گیرد.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.

منبع: https://venturebeat.com/ai/open-source-ai-voice-cloning-arrives-with-myshells-new-openvoice-model/

رویداد VB

با استفاده از OpenVoice

چگونه OpenVoice ساخته شد

چه کسی پشت OpenVoice است؟

دیدگاهتان را بنویسید لغو پاسخ