VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. در ۱۵ نوامبر از رهبران برتر صنعت بشنوید. پاس رایگان خود را رزرو کنید
مدیر مهندسی متا برای ژنرال هوش مصنوعی، سرگئی ادونوف، پاسخی شگفتانگیز به میزان انرژی بیشتری برای رسیدگی به تقاضای فزاینده برای کاربردهای هوش مصنوعی در سال آینده دارد: فقط دو نیروگاه هستهای جدید.
Edunov تلاشهای آموزشی متا را برای مدل پایه منبع باز Llama 2 که یکی از مدلهای پیشرو در نظر گرفته میشود، رهبری میکند. صحبت کردن در یک جلسه میزگردی که در آن مدیریت کردم انجمن کارگران دیجیتال هفته گذشته در دره سیلیکون، او گفت که دو نیروگاه برای تامین نیازهای هوش مصنوعی بشر برای یک سال کافی به نظر می رسد و به نظر می رسد که این قابل قبول است. وی با اشاره به سوالاتی در مورد اینکه آیا جهان ظرفیت کافی برای رسیدگی به نیازهای رو به رشد انرژی هوش مصنوعی را دارد، به ویژه با توجه به ظهور برنامه های کاربردی هوش مصنوعی مولد انرژی، گفت: ما قطعا می توانیم این مشکل را حل کنیم.
ادونوف به صراحت اعلام کرد که هنگام آماده کردن پاسخ خود فقط از ریاضیات پشت پاکت کار میکرد، اما گفت که این یک تخمین خوب از میزان قدرت لازم برای انجام آنچه «استنتاج هوش مصنوعی» نامیده میشود، ارائه میدهد. استنتاج فرآیندی است که هوش مصنوعی در یک برنامه کاربردی به منظور پاسخ دادن به یک سوال یا ارائه یک توصیه مستقر می شود.
استنتاج از “آموزش” مدل هوش مصنوعی متمایز است، یعنی زمانی که یک مدل بر روی مقادیر انبوه داده آموزش می بیند تا برای انجام استنتاج آماده شود.
آموزش مدلهای زبان بزرگ (LLM) اخیراً مورد توجه قرار گرفته است، زیرا نیاز به پردازش گسترده دارد، اگرچه فقط در ابتدا. هنگامی که یک مدل آموزش داده شد، می توان آن را بارها و بارها برای نیازهای استنتاج استفاده کرد، جایی که کاربرد واقعی هوش مصنوعی در آنجا اتفاق می افتد.
نیازهای قدرت برای استنتاج تحت کنترل است
ادونوف دو پاسخ جداگانه به استنباط و آموزش داد. اولین پاسخ او به استنباط میپردازد، جایی که اکثر پردازشها در آینده با استقرار برنامههای هوش مصنوعی توسط سازمانها انجام میشود. او توضیح داد که چگونه محاسبات ساده خود را برای طرف استنتاج انجام داده است: او گفت که انویدیا، تامین کننده غالب پردازنده های هوش مصنوعی، به نظر می رسد آماده عرضه بین یک میلیون تا دو میلیون از پردازنده های گرافیکی H100 خود در سال آینده است. اگر همه آن GPUS برای تولید «توکنها» برای LLMهایی با اندازه معقول استفاده میشد، او گفت که به ازای هر نفر در هر روز روی کره زمین حدود ۱۰۰۰۰۰ توکن میشود، که او اذعان داشت که توکنهای بسیار زیادی است.
توکن ها واحدهای اساسی متنی هستند که LLM ها از آنها برای پردازش و تولید زبان استفاده می کنند. بسته به نحوه طراحی LLM، آنها می توانند کلمات، بخش هایی از کلمات یا حتی کاراکترهای منفرد باشند. به عنوان مثال، کلمه “سلام” می تواند یک نشانه باشد یا می تواند به دو علامت “هل” و “لو” تقسیم شود. هر چه یک LLM بتواند توکن های بیشتری را مدیریت کند، زبانی که می تواند تولید کند پیچیده تر و متنوع تر است.
بنابراین برای تولید این تعداد توکن به چه مقدار برق نیاز داریم؟ خوب، هر پردازنده گرافیکی H100 به حدود ۷۰۰ وات نیاز دارد، و با توجه به اینکه برای پشتیبانی از مرکز داده و خنک کننده به مقداری برق نیاز دارید، ادونوف گفت که به ازای هر GPU به ۱ کیلو وات گردآوری کرده است. همه را جمع کنید، و این فقط دو رآکتور هسته ای است که برای تامین انرژی تمام آن H100 ها لازم است. ادونوف گفت: «در مقیاس انسانیت، آنقدر زیاد نیست. “من فکر میکنم به عنوان یک جامعه، ما میتوانیم به ازای هر نفر در این سیاره روزانه تا ۱۰۰۰۰۰ توکن بپردازیم. بنابراین از نظر استنباط، من احساس میکنم ممکن است جایی که الان هستیم مشکلی نداشته باشد.”
(پس از جلسه، ادونوف به VentureBeat توضیح داد که اظهارات او به قدرت مورد نیاز برای اضافه هوش مصنوعی از هجوم جدید H100 های انویدیا محاسبه می شود، که مخصوصا برای مدیریت برنامه های هوش مصنوعی طراحی شده اند و بنابراین قابل توجه ترین هستند. علاوه بر H100s، مدلهای گرافیکی قدیمیتر انویدیا و همچنین پردازندههای AMD و Intel و همچنین شتابدهندههای هوش مصنوعی با هدف خاص وجود دارند که برای هوش مصنوعی استنتاج میکنند.)
برای آموزش هوش مصنوعی مولد، دریافت اطلاعات کافی مشکل است
ادونوف گفت که آموزش LLM یک چالش متفاوت است. در آنجا محدودیت اصلی دریافت داده های کافی برای آموزش آنهاست. او گفت که به طور گسترده حدس زده می شود که GPT4 در کل اینترنت آموزش داده شده است. در اینجا او چند فرض ساده تر را مطرح کرد. او گفت که کل اینترنت در دسترس عموم، اگر فقط آن را دانلود کنید، تقریباً ۱۰۰ تریلیون توکن است. او گفت، اما اگر آن را پاک کنید و داده ها را کپی کنید، می توانید آن داده ها را به ۲۰ تریلیون تا ۱۰ تریلیون توکن کاهش دهید. و اگر روی توکن های با کیفیت بالا تمرکز کنید، مقدار آن حتی کمتر می شود. او گفت: «میزان دانش مقطری که بشر در طول اعصار ایجاد کرد، چندان زیاد نیست، به خصوص اگر نیاز به افزودن دادههای بیشتری به مدلها داشته باشید تا آنها را برای عملکرد بهتر مقیاسبندی کنید.
او تخمین میزند که مدلهای نسل بعدی با عملکرد بالاتر به ۱۰ برابر دادههای بیشتری نیاز دارند. بنابراین اگر GPT4 روی مثلاً ۲۰ تریلیون توکن آموزش داده شده باشد، مدل بعدی به ۲۰۰ تریلیون توکن نیاز خواهد داشت. او گفت که ممکن است داده های عمومی کافی برای انجام این کار وجود نداشته باشد. به همین دلیل است که محققان بر روی تکنیکهای کارایی کار میکنند تا مدلها را در مقادیر کمتری از دادهها کارآمدتر و هوشمندتر کنند. مدلهای LLM همچنین ممکن است مجبور باشند از منابع جایگزین دادهها، به عنوان مثال دادههای چندوجهی، مانند ویدیو، استفاده کنند. او گفت: «اینها حجم عظیمی از دادهها هستند که میتوانند مقیاسگذاری در آینده را امکانپذیر کنند.
ادونوف در پانلی با عنوان «تولید توکنها: الکتریسیته دوران GenAI» صحبت کرد و نیک اسپرین، مدیر GenAI برای انویدیا، و کوین تسای، رئیس بخش معماری راهحل، GenAI، برای Google به او پیوستند.
Spirin با Edunov موافقت کرد که مخازن دیگری از داده ها خارج از اینترنت عمومی موجود است، از جمله در پشت فایروال ها و انجمن ها، اگرچه به راحتی قابل دسترسی نیستند. با این حال، سازمانهایی که به آن دادهها دسترسی دارند، میتوانند برای سفارشیسازی آسان مدلهای بنیادی از آنها استفاده کنند.
Spirin گفت که جامعه علاقه مند است که بهترین مدل های بنیاد منبع باز را پشت سر بگذارد تا از حمایت بیش از حد از تلاش های مستقل اجتناب کند. او گفت که این باعث صرفه جویی در محاسبات می شود، زیرا می توان آنها را یک بار از قبل آموزش داد و بیشتر تلاش را می توان صرف ساخت برنامه های کاربردی پایین دستی هوشمند کرد. او گفت این پاسخی است برای جلوگیری از دستیابی به محدودیت های داده به این زودی.
Tsai از گوگل اضافه کرد که تعدادی فناوری دیگر وجود دارد که می تواند به کاهش فشار از تمرین کمک کند. بازیابی نسل افزوده (RAG) میتواند به سازمانها کمک کند تا مدلهای پایه را با گنجینه دادههای خود تنظیم کنند. و در حالی که RAG محدودیتهای خود را دارد، فناوریهای دیگری که گوگل آزمایش کرده است، مانند بردارهای معنایی پراکنده، میتوانند کمک کنند. او گفت: “جامعه میتواند با مدلهای مفیدی که میتوانند در بسیاری از مکانها تغییر کاربری داده شوند، گرد هم آیند. و احتمالاً این راهی است که میتوان برای زمین پیش رفت.”
پیش بینی ها: ما می دانیم که آیا AGI ظرف سه یا چهار سال امکان پذیر است یا خیر، و LLM ها ارزش “عظیم” را به شرکت ها ارائه خواهند کرد.
در پایان پانل، من از اعضای میزگرد پیشبینیهایشان را برای دو تا سه سال آینده پرسیدم که چگونه LLMها از نظر توانایی رشد خواهند کرد و در کجا با محدودیت مواجه خواهند شد. به طور کلی، آنها توافق کردند که اگرچه مشخص نیست که LLM ها چقدر می توانند بهبود یابند، ارزش قابل توجهی در حال حاضر نشان داده شده است، و شرکت ها احتمالاً ظرف دو سال آینده LLM ها را به طور انبوه به کار خواهند برد.
Edunov از Meta گفت: بهبود در LLM می تواند به صورت تصاعدی ادامه یابد یا شروع به کاهش کند. او پیش بینی کرد که در هر صورت، سه تا چهار سال دیگر پاسخی خواهیم داشت که آیا هوش عمومی مصنوعی (AGI) با فناوری فعلی امکان پذیر است یا خیر. Spirin از انویدیا گفت، با قضاوت از موج های قبلی فناوری، از جمله فناوری های اولیه هوش مصنوعی، شرکت های سازمانی در ابتدا کند خواهند بود. اما در عرض دو سال، او انتظار دارد که شرکتها ارزش «عظیمی» از آن کسب کنند. او گفت: «حداقل این مورد در مورد موج قبلی فناوری هوش مصنوعی بود.
Tsai از گوگل اشاره کرد که محدودیتهای زنجیره تامین – ناشی از تکیه Nvidia به حافظه با پهنای باند بالا برای GPUS – باعث کاهش سرعت پیشرفت مدل میشود و این تنگنا باید حل شود. اما او گفت که از نوآوری هایی مانند Blib-2، راهی برای ساخت مدل های کوچکتر و کارآمدتر. او گفت که اینها ممکن است به LLMها کمک کند تا با کاهش نیازهای پردازش خود، محدودیت های زنجیره تامین را دور بزنند.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/meta-engineer-only-two-nuclear-power-plants-needed-to-fuel-ai-inference-next-year/