در ۱۰ ژانویه به رهبران سانفرانسیسکو بپیوندید تا یک شب منحصر به فرد شبکه، بینش و گفتگو داشته باشید. درخواست دعوت اینجا.
استارتآپهایی که به طور فزایندهای شناخته شدهاند یازده آزمایشگاه میلیونها دلار جمعآوری کردهاند تا الگوریتمهای اختصاصی و نرمافزار هوش مصنوعی خود را برای ساخت کلونهای صوتی ایجاد کنند – برنامههای صوتی که صدای کاربران را تقلید میکنند.
اما راه حل جدیدی در راه است، OpenVoiceتوسط محققان موسسه فناوری ماساچوست (MIT)، دانشگاه Tsinghua در پکن، چین و اعضای استارتاپ هوش مصنوعی کانادایی توسعه یافته است. MyShellبرای ارائه شبیهسازی صوتی منبع باز که تقریباً فوری است و کنترلهای دانهای را ارائه میدهد که در دیگر پلتفرمهای شبیهسازی صوتی یافت نمیشوند.
MyShell در پستی امروز در حساب کاربری رسمی شرکت خود در تاریخ نوشت: “صداها را با دقتی بی نظیر، با کنترل دقیق لحن، از احساس گرفته تا لهجه، ریتم، مکث و لحن، تنها با استفاده از یک کلیپ صوتی کوچک، شبیه سازی کنید.” ایکس.
این شرکت همچنین پیوندی به آن ارائه کرده است مقاله پژوهشی از پیش بازبینی شده شرح چگونگی توسعه OpenVoice و پیوندهایی به مکانهایی که کاربران میتوانند به آن دسترسی داشته باشند و آن را امتحان کنند، از جمله رابط برنامه وب MyShell (که برای دسترسی به آن نیاز به یک حساب کاربری دارد) و صورت در آغوش گرفته (که بدون حساب کاربری به صورت عمومی قابل دسترسی است).
با استفاده از OpenVoice
در آزمایشهای غیرعلمی خود از مدل شبیهسازی صوتی جدید در HuggingFace، توانستم با استفاده از گفتار کاملاً تصادفی، یک کلون نسبتاً قانعکننده – البته تا حدودی رباتیک – از صدای خودم به سرعت و در عرض چند ثانیه ایجاد کنم.
بر خلاف سایر برنامههای شبیهسازی صدا، من مجبور نشدم تکه خاصی از متن را بخوانم تا OpenVoice صدای من را شبیهسازی کند. من به سادگی برای چند ثانیه به طور غیرمستقیم صحبت کردم، و مدل یک کلون صوتی ایجاد کرد که میتوانستم تقریباً بلافاصله آن را پخش کنم و متنی را که ارائه کردم را بخوانم.
من همچنین توانستم “سبک” را بین چندین حالت پیش فرض تنظیم کنم – شاد، غمگین، دوستانه، عصبانی و غیره – با استفاده از یک منوی کشویی، و تغییر قابل توجهی را در لحن برای مطابقت با این احساسات مختلف شنیدم.
در اینجا نمونه ای از شبیه سازی صدای من است که توسط OpenVoice از طریق HuggingFace با لحن سبک “دوستانه” تنظیم شده است.
چگونه OpenVoice ساخته شد
در مقاله علمی خود، چهار خالق OpenVoice – Zengyi Qin از MIT و MyShell، Wenliang Zhao و Xumin Yu از دانشگاه Tsinghua و Xin Sun از MyShell – رویکرد خود را برای ایجاد هوش مصنوعی شبیهسازی صدا توصیف میکنند.
OpenVoice در واقع از دو مدل هوش مصنوعی مختلف تشکیل شده است: یک مدل متن به گفتار (TTS) و یک “تبدیل آهنگ”.
اولین مدل «پارامترهای سبک و زبانها» را کنترل میکند و بر روی ۳۰۰۰۰ جمله «نمونههای صوتی از دو انگلیسی زبان (لهجه آمریکایی و انگلیسی)، یک سخنران چینی و یک سخنران ژاپنی» آموزش داده شد، که هر کدام بر اساس احساسات بیان شده برچسبگذاری شده بودند. در آنها. او همچنین لحن، ریتم و مکث را از این کلیپ ها یاد گرفت.
در همین حال، مدل مبدل تن بر روی بیش از ۳۰۰۰۰۰ نمونه صوتی از بیش از ۲۰۰۰۰ بلندگوی مختلف آموزش داده شد.
در هر دو مورد، صدای گفتار انسان به تبدیل شد واج ها – صداهای خاصی که کلمات را از یکدیگر متمایز می کند – و با جاسازی های برداری نشان داده می شود.
با استفاده از “اسپیکر پایه” برای مدل TTS، و سپس ترکیب آن با لحن به دست آمده از صدای ضبط شده ارائه شده توسط کاربر، این دو مدل با هم می توانند صدای کاربر را بازتولید کنند و همچنین “رنگ تن” خود را تغییر دهند. بیان احساسی متنی که گفته می شود. در اینجا یک نمودار موجود در مقاله تیم OpenVoice آمده است که نحوه کار این دو مدل را با هم نشان می دهد:

این تیم خاطرنشان می کند که رویکرد آنها از نظر مفهومی بسیار ساده است، اما به خوبی کار می کند و قادر است صداها را با استفاده از منابع محاسباتی بسیار کمتری نسبت به روش های دیگر شبیه سازی کند، از جمله مدل شبیهسازی صدای رقیب متا Voicebox.
چه کسی پشت OpenVoice است؟
MyShell، در سال ۲۰۲۳ در کلگری، آلبرتا، استان کانادا، با دور دانه ۵٫۶ میلیون دلاری بر اساس گزارشات، به رهبری INCE Capital با سرمایه گذاری اضافی از Folius Ventures، Hashkey Capital، SevenX Ventures، TSVC و OP Crypto، در حال حاضر بیش از ۴۰۰۰۰۰ کاربر دارد. ساس نیوز.
این استارتآپ خود را بهعنوان یک پلتفرم غیرمتمرکز و جامع برای کشف، ایجاد و قرار دادن اپلیکیشنهای بومی هوش مصنوعی توصیف میکند.
علاوه بر ارائه OpenVoice، برنامه وب این شرکت شامل مجموعهای از کاراکترها و رباتهای مبتنی بر متن مختلف هوش مصنوعی با «شخصیتهای» متفاوت – مشابه Character.AI – از جمله برخی از شخصیتهای NSFW است. همچنین شامل یک سازنده GIF متحرک و RPG های متنی تولید شده توسط کاربر است که برخی از ویژگی های دارای حق چاپ مانند هری پاتر و مارول حق رای دادن
اگر MyShell در حال ساخت OpenVoice منبع باز باشد، چگونه قصد دارد درآمد داشته باشد؟ شرکت اشتراک ماهانه را شارژ می کند برای کاربران برنامه وب آن، و همچنین برای سازندگان ربات های شخص ثالث که می خواهند محصولات خود را در برنامه تبلیغ کنند. همچنین برای داده های آموزشی هوش مصنوعی هزینه می گیرد.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/open-source-ai-voice-cloning-arrives-with-myshells-new-openvoice-model/