هزینه واقعی استفاده از هوش مصنوعی؛ از متن ساده تا ویدیوی حرفهای
در بولتن هوش مصنوعی امروز، به بخش بسیار جذاب گزارش MIT درباره بحث کلیدی تأمین انرژی سامانههای هوش مصنوعی رسیدیم. بخش اول از گزارش نتایج تحقیقات درباره مصرف انرژی انواع تعامل با هوش مصنوعی را ببینید.

مدلهای متنی
بیایید با مدلهایی آغاز کنیم که کاربر در آنها سوالی تایپ میکند و پاسخی نوشتاری دریافت مینماید. یکی از گروههای پیشرو در ارزیابی نیازهای انرژی هوش مصنوعی، در دانشگاه میشیگان فعالیت دارد؛ این گروه به رهبری دانشجوی دکترا، "جهوون چونگ"، و دانشیار "موشرف چودری"، دادههای مربوط به مصرف انرژی را در جدول رتبهبندی ML.Energy منتشر میکنند. ما با این تیم همکاری کردهایم تا بر نیازهای انرژی یکی از پرکاربردترین مدلهای متنباز، یعنی مدل "لاما"ی شرکت متا، تمرکز نماییم.
کوچکترین مدل در مجموعهی ما، "Llama 3.1 8B"، شامل هشت میلیارد پارامتر است—که در اصل همان «دکمههای قابل تنظیم» در یک مدل هوش مصنوعی هستند که امکان پیشبینی را فراهم میسازند. هنگامی که این مدل بر روی انواع مختلفی از دستورات متنی آزمایش شد—مانند تهیه برنامه سفر برای استانبول یا توضیح محاسبات کوانتومی—در هر پاسخ، به طور میانگین حدود ۵۷ ژول انرژی مصرف نمود. با در نظر گرفتن خنکسازی، محاسبات دیگر و نیازهای جانبی، این مقدار به حدود ۱۱۴ ژول برآورد میشود. این مقدار بسیار اندک است—در حد انرژی موردنیاز برای حرکت شش فوت با دوچرخه الکتریکی یا روشنکردن مایکروویو بهمدت یکدهم ثانیه.
بزرگترین مدل در این مجموعه، "Llama 3.1 405B"، دارای ۵۰ برابر پارامتر بیشتر است. بهطور کلی، افزایش تعداد پارامترها موجب بهبود کیفیت پاسخ میشود، اما انرژی بیشتری نیز نیاز خواهد بود. این مدل، بهطور میانگین در هر پاسخ، ۳۳۵۳ ژول انرژی مصرف نمود. با لحاظ سایر عوامل، این مقدار به حدود ۶۷۰۶ ژول میرسد. این مقدار انرژی معادل حمل یک نفر به مسافت ۴۰۰ فوت با دوچرخه الکتریکی یا روشنکردن مایکروویو برای هشت ثانیه است.
بنابراین، اندازه مدل، عامل بسیار مؤثری در تعیین میزان انرژی مورد نیاز محسوب میشود. یکی از دلایل این امر آن است که با رسیدن به ابعاد خاصی، اجرای مدل مستلزم استفاده از تعداد بیشتری تراشه خواهد بود، که هر کدام انرژی مصرفی خاص خود را دارند. بزرگترین مدلی که ما آزمایش نمودیم دارای ۴۰۵ میلیارد پارامتر بود؛ اما مدلهای دیگری مانند "DeepSeek" حتی تا بیش از ۶۰۰ میلیارد پارامتر نیز پیش رفتهاند. تعداد پارامترهای مدلهای بستهمنبع (Closed-Source) بهصورت عمومی افشا نشدهاند و تنها میتوان آنها را برآورد نمود. تخمین زده میشود که مدل GPT-4 دارای بیش از یک تریلیون پارامتر باشد.
با این حال، در تمام این موارد، خود دستور یا «پرامپت» نیز نقش بسیار مهمی ایفا میکند. دستورات ساده، مانند درخواست تعریف چند لطیفه، تا ۹ برابر انرژی کمتری نسبت به دستورات پیچیدهتر مانند نوشتن داستان خلاقانه یا ارائه دستور غذا، مصرف میکنند.
تولید تصویر
مدلهای هوش مصنوعی که تصاویر و ویدیو تولید میکنند، از معماری متفاوتی به نام «دیفیوژن» استفاده میکنند. این مدلها به جای پیشبینی و تولید کلمات، میآموزند که چگونه تصویری از نویز را به تصویری قابل درک—مثلاً عکس یک فیل—تبدیل نمایند. آنها این فرآیند را با یادگیری الگوها و ساختارهای موجود در دادههای تصویری آموزشی انجام میدهند و این اطلاعات را در میان میلیونها یا میلیاردها پارامتر ذخیره میکنند. مدلهای ویدیوساز، همین فرآیند را در بُعد زمان نیز انجام میدهند.
میزان انرژی مورد نیاز یک مدل دیفیوژن خاص، به خود دستور کاربر وابسته نیست—تولید تصویری از یک اسکیباز روی شنزار، به اندازه تولید تصویری از یک فضانورد مشغول کشاورزی در مریخ، انرژی مصرف میکند. بلکه انرژی مورد نیاز، به اندازه مدل، وضوح تصویر، و تعداد مراحل دیفیوژن بستگی دارد. (افزایش تعداد مراحل موجب بهبود کیفیت میشود اما انرژی بیشتری نیز مصرف خواهد شد.)
تولید یک تصویر با کیفیت استاندارد (۱۰۲۴ در ۱۰۲۴ پیکسل) با مدل Stable Diffusion 3 Medium، که پیشروترین مدل متنباز تولید تصویر محسوب میشود و دارای ۲ میلیارد پارامتر است، حدود ۱۱۴۱ ژول انرژی پردازنده گرافیکی نیاز دارد. در مورد مدلهای دیفیوژن، برخلاف مدلهای زبانی بزرگ، تخمین مستقیمی از سهم GPU در مصرف کل انرژی وجود ندارد. اما متخصصان توصیه نمودند که همچنان از همان روش «دوبرابر کردن» استفاده شود، زیرا تفاوتها احتمالاً اندک هستند. بنابراین، انرژی کل مورد نیاز حدود ۲۲۸۲ ژول برآورد میشود. بهبود کیفیت تصویر با دو برابر کردن تعداد مراحل دیفیوژن به ۵۰، تقریباً دو برابر انرژی بیشتری نیاز دارد—حدود ۴۴۰۲ ژول. این مقدار معادل طی کردن ۲۵۰ فوت با دوچرخه الکتریکی یا حدود پنج و نیم ثانیه روشنبودن مایکروویو است. این مقدار هنوز هم کمتر از انرژی مصرفی بزرگترین مدل متنی است.
این موضوع ممکن است تعجببرانگیز باشد، اگر تصور کرده باشید که تولید تصویر نسبت به تولید متن انرژی بیشتری نیاز دارد. مدلهای بزرگ [متنی] پارامترهای بسیار زیادی دارند و با آنکه این مدلها صرفاً متن تولید میکنند، اما حجم عظیمی از پردازش را انجام میدهند.
از سوی دیگر، مدلهای تولید تصویر معمولاً با تعداد پارامترهای کمتری کار میکنند.
ساخت ویدیو
ویدیوهایی که با مدل متنباز CogVideoX تولید شدهاند.
در سال گذشته، شرکت OpenAI ابزار خیرهکنندهی خود به نام Sora را برای تولید ویدیوهای با کیفیت بالا به کمک هوش مصنوعی معرفی نمود. مدلهای ویدیویی دیگری نیز با کد بسته (Closed-Source) عرضه شدهاند، از جمله Veo2 از گوگل و Firefly از شرکت ادوبی.
با توجه به حجم عظیم سرمایهگذاری و محتوایی که برای آموزش این مدلها لازم است، تعجبی ندارد که مدلهای متنباز و رایگان معمولاً از نظر کیفیت از مدلهای بسته عقبتر باشند. با این حال، به گفتهی پژوهشگران شرکت Hugging Face، یکی از بهترین مدلهای متنباز در این حوزه CogVideoX است، ساختهی یک استارتاپ هوش مصنوعی چینی به نام Zhipu AI با همکاری پژوهشگرانی از دانشگاه Tsinghua در پکن.
ساشا لوچونی، پژوهشگر هوش مصنوعی و اقلیم در Hugging Face، مصرف انرژی مورد نیاز برای تولید ویدیو با این مدل را با استفاده از ابزاری به نام Code Carbon مورد آزمایش قرار داده است.
نسخهی قدیمیتری از این مدل که در ماه اوت منتشر شد، ویدیوهایی با نرخ تنها هشت فریم بر ثانیه و با وضوح نسبتاً پایین تولید میکرد—بیشتر شبیه به یک GIF تا یک ویدیوی واقعی. تولید هر ویدیو با این مدل حدود ۱۰۹٬۰۰۰ ژول انرژی نیاز داشت. اما سه ماه بعد، شرکت مدل بزرگتر و با کیفیتتری عرضه کرد که توانایی تولید ویدیوهای پنجثانیهای با نرخ ۱۶ فریم بر ثانیه را دارد (البته این نرخ هنوز هم کیفیت HD محسوب نمیشود؛ این همان نرخ فریمی است که در دوران فیلمهای صامت هالیوود تا اواخر دهه ۱۹۲۰ استفاده میشد). این مدل جدید، برای تولید هر ویدیوی پنجثانیهای بیش از ۳۰ برابر انرژی بیشتر مصرف میکند: حدود ۳.۴ میلیون ژول، که بیش از ۷۰۰ برابر انرژی مورد نیاز برای تولید یک تصویر با کیفیت بالا است. این میزان انرژی معادل پیمودن ۳۸ مایل با دوچرخه الکتریکی یا روشن بودن مایکروویو برای بیش از یک ساعت است.
میتوان بهدرستی گفت که مدلهای پیشرفته تولید ویدیوی هوش مصنوعی، که ویدیوهایی چشمنواز و بسیار واقعگرایانه با طول تا ۳۰ ثانیه تولید میکنند، بهمراتب انرژی بیشتری مصرف خواهند نمود. با بزرگتر شدن این مدلها، امکانات بیشتری نیز به آنها افزوده میشود—از جمله قابلیت ویرایش دقیق عناصر خاص در ویدیو یا ترکیب چند برداشت به یک صحنهی منسجم—که همگی نیاز انرژی را افزایش خواهند داد.
نکتهای که باید اشاره کرد آن است که برخی شرکتهای هوش مصنوعی از این ارقام دفاع کردهاند، و اظهار داشتهاند که تولید ویدیوی مولد (Generative Video) ردپای کربنی کمتری نسبت به فیلمبرداری سنتی و سفرهای مرتبط با آن دارد. با این حال، اثبات این ادعا دشوار است و این موضوع را در نظر نمیگیرد که در صورت ارزان شدن تولید ویدیو با هوش مصنوعی، ممکن است شاهد افزایش چشمگیر در حجم تولید چنین ویدیوهایی باشیم.