| کد مطلب: ۴۳۸۱۳

هزینه واقعی استفاده از هوش مصنوعی؛ از متن ساده تا ویدیوی حرفه‌ای

در بولتن هوش مصنوعی امروز، به بخش بسیار جذاب گزارش MIT درباره بحث کلیدی تأمین انرژی سامانه‌های هوش مصنوعی رسیدیم. بخش اول از گزارش نتایج تحقیقات درباره مصرف انرژی انواع تعامل با هوش مصنوعی را ببینید.

هزینه واقعی استفاده از هوش مصنوعی؛ از متن ساده تا ویدیوی حرفه‌ای

مدل‌های متنی

بیایید با مدل‌هایی آغاز کنیم که کاربر در آن‌ها سوالی تایپ می‌کند و پاسخی نوشتاری دریافت می‌نماید. یکی از گروه‌های پیشرو در ارزیابی نیازهای انرژی هوش مصنوعی، در دانشگاه میشیگان فعالیت دارد؛ این گروه به رهبری دانشجوی دکترا، "جه‌وون چونگ"، و دانشیار "موشرف چودری"، داده‌های مربوط به مصرف انرژی را در جدول رتبه‌بندی ML.Energy منتشر می‌کنند. ما با این تیم همکاری کرده‌ایم تا بر نیازهای انرژی یکی از پرکاربردترین مدل‌های متن‌باز، یعنی مدل "لاما"ی شرکت متا، تمرکز نماییم.

کوچک‌ترین مدل در مجموعه‌ی ما، "Llama 3.1 8B"، شامل هشت میلیارد پارامتر است—که در اصل همان «دکمه‌های قابل تنظیم» در یک مدل هوش مصنوعی هستند که امکان پیش‌بینی را فراهم می‌سازند. هنگامی که این مدل بر روی انواع مختلفی از دستورات متنی آزمایش شد—مانند تهیه برنامه سفر برای استانبول یا توضیح محاسبات کوانتومی—در هر پاسخ، به طور میانگین حدود ۵۷ ژول انرژی مصرف نمود. با در نظر گرفتن خنک‌سازی، محاسبات دیگر و نیازهای جانبی، این مقدار به حدود ۱۱۴ ژول برآورد می‌شود. این مقدار بسیار اندک است—در حد انرژی موردنیاز برای حرکت شش فوت با دوچرخه الکتریکی یا روشن‌کردن مایکروویو به‌مدت یک‌دهم ثانیه.

بزرگ‌ترین مدل در این مجموعه، "Llama 3.1 405B"، دارای ۵۰ برابر پارامتر بیشتر است. به‌طور کلی، افزایش تعداد پارامترها موجب بهبود کیفیت پاسخ می‌شود، اما انرژی بیشتری نیز نیاز خواهد بود. این مدل، به‌طور میانگین در هر پاسخ، ۳۳۵۳ ژول انرژی مصرف نمود. با لحاظ سایر عوامل، این مقدار به حدود ۶۷۰۶ ژول می‌رسد. این مقدار انرژی معادل حمل یک نفر به مسافت ۴۰۰ فوت با دوچرخه الکتریکی یا روشن‌کردن مایکروویو برای هشت ثانیه است.

بنابراین، اندازه مدل، عامل بسیار مؤثری در تعیین میزان انرژی مورد نیاز محسوب می‌شود. یکی از دلایل این امر آن است که با رسیدن به ابعاد خاصی، اجرای مدل مستلزم استفاده از تعداد بیشتری تراشه خواهد بود، که هر کدام انرژی مصرفی خاص خود را دارند. بزرگ‌ترین مدلی که ما آزمایش نمودیم دارای ۴۰۵ میلیارد پارامتر بود؛ اما مدل‌های دیگری مانند "DeepSeek" حتی تا بیش از ۶۰۰ میلیارد پارامتر نیز پیش رفته‌اند. تعداد پارامترهای مدل‌های بسته‌منبع (Closed-Source) به‌صورت عمومی افشا نشده‌اند و تنها می‌توان آن‌ها را برآورد نمود. تخمین زده می‌شود که مدل GPT-4 دارای بیش از یک تریلیون پارامتر باشد.

با این حال، در تمام این موارد، خود دستور یا «پرامپت» نیز نقش بسیار مهمی ایفا می‌کند. دستورات ساده، مانند درخواست تعریف چند لطیفه، تا ۹ برابر انرژی کمتری نسبت به دستورات پیچیده‌تر مانند نوشتن داستان خلاقانه یا ارائه دستور غذا، مصرف می‌کنند.

 

تولید تصویر

مدل‌های هوش مصنوعی که تصاویر و ویدیو تولید می‌کنند، از معماری متفاوتی به نام «دیفیوژن» استفاده می‌کنند. این مدل‌ها به جای پیش‌بینی و تولید کلمات، می‌آموزند که چگونه تصویری از نویز را به تصویری قابل درک—مثلاً عکس یک فیل—تبدیل نمایند. آن‌ها این فرآیند را با یادگیری الگوها و ساختارهای موجود در داده‌های تصویری آموزشی انجام می‌دهند و این اطلاعات را در میان میلیون‌ها یا میلیاردها پارامتر ذخیره می‌کنند. مدل‌های ویدیو‌ساز، همین فرآیند را در بُعد زمان نیز انجام می‌دهند.

میزان انرژی مورد نیاز یک مدل دیفیوژن خاص، به خود دستور کاربر وابسته نیست—تولید تصویری از یک اسکی‌باز روی شنزار، به اندازه تولید تصویری از یک فضانورد مشغول کشاورزی در مریخ، انرژی مصرف می‌کند. بلکه انرژی مورد نیاز، به اندازه مدل، وضوح تصویر، و تعداد مراحل دیفیوژن بستگی دارد. (افزایش تعداد مراحل موجب بهبود کیفیت می‌شود اما انرژی بیشتری نیز مصرف خواهد شد.)

تولید یک تصویر با کیفیت استاندارد (۱۰۲۴ در ۱۰۲۴ پیکسل) با مدل Stable Diffusion 3 Medium، که پیشروترین مدل متن‌باز تولید تصویر محسوب می‌شود و دارای ۲ میلیارد پارامتر است، حدود ۱۱۴۱ ژول انرژی پردازنده گرافیکی نیاز دارد. در مورد مدل‌های دیفیوژن، برخلاف مدل‌های زبانی بزرگ، تخمین مستقیمی از سهم GPU در مصرف کل انرژی وجود ندارد. اما متخصصان توصیه نمودند که همچنان از همان روش «دوبرابر کردن» استفاده شود، زیرا تفاوت‌ها احتمالاً اندک هستند. بنابراین، انرژی کل مورد نیاز حدود ۲۲۸۲ ژول برآورد می‌شود. بهبود کیفیت تصویر با دو برابر کردن تعداد مراحل دیفیوژن به ۵۰، تقریباً دو برابر انرژی بیشتری نیاز دارد—حدود ۴۴۰۲ ژول. این مقدار معادل طی کردن ۲۵۰ فوت با دوچرخه الکتریکی یا حدود پنج و نیم ثانیه روشن‌بودن مایکروویو است. این مقدار هنوز هم کمتر از انرژی مصرفی بزرگ‌ترین مدل متنی است.

این موضوع ممکن است تعجب‌برانگیز باشد، اگر تصور کرده باشید که تولید تصویر نسبت به تولید متن انرژی بیشتری نیاز دارد. مدل‌های بزرگ [متنی] پارامترهای بسیار زیادی دارند و با آنکه این مدل‌ها صرفاً متن تولید می‌کنند، اما حجم عظیمی از پردازش را انجام می‌دهند.

از سوی دیگر، مدل‌های تولید تصویر معمولاً با تعداد پارامترهای کمتری کار می‌کنند.

ساخت ویدیو

ویدیوهایی که با مدل متن‌باز CogVideoX تولید شده‌اند.

در سال گذشته، شرکت OpenAI ابزار خیره‌کننده‌ی خود به نام Sora را برای تولید ویدیوهای با کیفیت بالا به کمک هوش مصنوعی معرفی نمود. مدل‌های ویدیویی دیگری نیز با کد بسته (Closed-Source) عرضه شده‌اند، از جمله Veo2 از گوگل و Firefly از شرکت ادوبی.

با توجه به حجم عظیم سرمایه‌گذاری و محتوایی که برای آموزش این مدل‌ها لازم است، تعجبی ندارد که مدل‌های متن‌باز و رایگان معمولاً از نظر کیفیت از مدل‌های بسته عقب‌تر باشند. با این حال، به گفته‌ی پژوهشگران شرکت Hugging Face، یکی از بهترین مدل‌های متن‌باز در این حوزه CogVideoX است، ساخته‌ی یک استارتاپ هوش مصنوعی چینی به نام Zhipu AI با همکاری پژوهشگرانی از دانشگاه Tsinghua در پکن.

ساشا لوچونی، پژوهشگر هوش مصنوعی و اقلیم در Hugging Face، مصرف انرژی مورد نیاز برای تولید ویدیو با این مدل را با استفاده از ابزاری به نام Code Carbon مورد آزمایش قرار داده است.

نسخه‌ی قدیمی‌تری از این مدل که در ماه اوت منتشر شد، ویدیوهایی با نرخ تنها هشت فریم بر ثانیه و با وضوح نسبتاً پایین تولید می‌کرد—بیشتر شبیه به یک GIF تا یک ویدیوی واقعی. تولید هر ویدیو با این مدل حدود ۱۰۹٬۰۰۰ ژول انرژی نیاز داشت. اما سه ماه بعد، شرکت مدل بزرگ‌تر و با کیفیت‌تری عرضه کرد که توانایی تولید ویدیوهای پنج‌ثانیه‌ای با نرخ ۱۶ فریم بر ثانیه را دارد (البته این نرخ هنوز هم کیفیت HD محسوب نمی‌شود؛ این همان نرخ فریمی است که در دوران فیلم‌های صامت هالیوود تا اواخر دهه ۱۹۲۰ استفاده می‌شد). این مدل جدید، برای تولید هر ویدیوی پنج‌ثانیه‌ای بیش از ۳۰ برابر انرژی بیشتر مصرف می‌کند: حدود ۳.۴ میلیون ژول، که بیش از ۷۰۰ برابر انرژی مورد نیاز برای تولید یک تصویر با کیفیت بالا است. این میزان انرژی معادل پیمودن ۳۸ مایل با دوچرخه الکتریکی یا روشن بودن مایکروویو برای بیش از یک ساعت است.

می‌توان به‌درستی گفت که مدل‌های پیشرفته تولید ویدیوی هوش مصنوعی، که ویدیوهایی چشم‌نواز و بسیار واقع‌گرایانه با طول تا ۳۰ ثانیه تولید می‌کنند، به‌مراتب انرژی بیشتری مصرف خواهند نمود. با بزرگ‌تر شدن این مدل‌ها، امکانات بیشتری نیز به آن‌ها افزوده می‌شود—از جمله قابلیت ویرایش دقیق عناصر خاص در ویدیو یا ترکیب چند برداشت به یک صحنه‌ی منسجم—که همگی نیاز انرژی را افزایش خواهند داد.

نکته‌ای که باید اشاره کرد آن است که برخی شرکت‌های هوش مصنوعی از این ارقام دفاع کرده‌اند، و اظهار داشته‌اند که تولید ویدیوی مولد (Generative Video) ردپای کربنی کمتری نسبت به فیلم‌برداری سنتی و سفرهای مرتبط با آن دارد. با این حال، اثبات این ادعا دشوار است و این موضوع را در نظر نمی‌گیرد که در صورت ارزان شدن تولید ویدیو با هوش مصنوعی، ممکن است شاهد افزایش چشم‌گیر در حجم تولید چنین ویدیوهایی باشیم.

 

به کانال تلگرام هم میهن بپیوندید

دیدگاه

ویژه فناوری
پربازدیدترین
آخرین اخبار