مدل هوش مصنوعی دیپسیک اخیراً توجه بسیاری از متخصصان حوزه هوش مصنوعی را جلب کرده است. برخی از منابع اعلام کردهاند DeepSeek میتواند الگویی جدید برای کاهش مصرف انرژی در سیستمهای هوش مصنوعی ارائه دهد اما باتوجهبه آماری که بهتازگی منتشر شده، این ادعا ممکن است گمراهکننده باشد.
براساس گزارش جدید مجله تکنولوژی MIT، تمامی مدلهای هوش مصنوعی 2 فاز اصلی آموزش و استنتاج دارند که نیاز به مصرف قابلتوجه انرژی برای محاسبات دارد. DeepSeek در فاز آموزش از روشی به نام «ترکیب متخصصان» (Mixture of Experts) استفاده میکند که فقط بخش کوچکی از پارامترهای مدل را فعال میکند. این روش کمک میکند مصرف انرژی در مرحله آموزش کاهش یابد. همچنین این مدل یادگیری تقویتی (Reinforcement Learning) را بهبود داده که به مدل این امکان را میدهد تا خود را خودکار بهبود بدهد و کمتر به دخالت انسانی نیاز داشته باشد.
نکتهای که درباره دیپسیک وجود دارد این است که در فاز استنتاج، این مدل از روشی به نام «زنجیره تفکر» (Chain of Thought) استفاده میکند. این روش به مدل این امکان را میدهد که منطقی و مرحلهبهمرحله به سؤالات پاسخ دهد؛ یعنی مدل میتواند مسائل پیچیدهتر مانند مسائل ریاضی، منطق، و اخلاق را بهتر حل کند.
بررسیهای اولیه نشان میدهند دیپسیک برای تولید پاسخهای خود 41 درصد بیشتر از مدلهای مشابه متا انرژی مصرف میکند. همچنین در 40 آزمایش مختلف مشخص شد این مدل بهدلیل ارائه پاسخهای طولانیتر، 87 درصد انرژی بیشتری نسبت به مدلهای استاندارد متا مصرف کرده است. این موضوع نگرانیهایی ایجاد کرده که اگر شرکتهای دیگر از این رویکرد پیروی کنند، مصرف انرژی هوش مصنوعی افزایش چشمگیری داشته باشد.
«ساشا لوچیونی»، پژوهشگر هوش مصنوعی و مدیر بخش اقلیم Hugging Face، هشدار میدهد اگر از مدلهای مبتنیبر زنجیره تفکر استفاده گسترده بشود، مصرف انرژی سرسامآور خواهد شد و تمام دستاوردهای کاهش مصرف انرژی بیاثر میشود؛ به همین دلیل، سؤال اصلی این است که هزینه بالای انرژی این مدلها از نظر اقتصادی برای شرکتها مقرونبهصرفه خواهد بود یا خیر.
درنهایت، میتوان گفت گرچه دیپسیک در فاز آموزش توانسته است مصرف انرژی را کاهش دهد، در فاز استنتاج بهدلیل استفاده از روشهای پیچیدهتر مانند زنجیره تفکر، مصرف انرژی بیشتری دارد؛ بنابراین، اگر استفاده از این مدلها گسترش یابد، ممکن است شاهد افزایش چشمگیر مصرف انرژی در دنیای هوش مصنوعی باشیم.
در گزارش MIT گفته شده بهدلیل نداشتن دسترسی به مدل OpenAI o1، مدل دیپسیک در آزمایشها با مدلهای مشابه متا مقایسه شده است.