آیا xAI درباره برتری عملکرد Grok 3 دروغ گفته است؟

دیجیاتو یکشنبه 05 اسفند 1403 - 18:47

xAI و OpenAI بر سر نتایج بنچمارک Grok 3 اختلاف دارند. The post آیا xAI درباره برتری عملکرد Grok 3 دروغ گفته است؟ appeared first on دیجیاتو.

در دنیای هوش مصنوعی، مقایسه مدل‌ها و گزارش عملکرد آنها همواره بحث‌برانگیز بوده است. این هفته، یکی از کارکنان OpenAI شرکت xAI متعلق به ایلان ماسک را به انتشار اطلاعات گمراه‌کننده درباره عملکرد مدل جدیدش، Grok 3، متهم کرد. درحالی‌که «ایگور بابوشکین» (Igor Babushkin)، یکی از مهندسان ارشد xAI، از نتایج منتشرشده دفاع کرده است.

ماجرای انتشار بنچمارک‌های Grok 3

xAI در وبلاگ رسمی خود نموداری منتشر کرد که نشان می‌داد Grok 3 در بنچمارک «AIME 2025» نسبت به مدل «o3-mini-high» از OpenAI عملکرد بهتری دارد. طبق گزارش «Techcrunch»، آزمون AIME 2025 مجموعه‌ای از سؤالات ریاضی چالش‌برانگیز است که برای ارزیابی توانایی ریاضی مدل‌های هوش مصنوعی به کار می‌رود. البته برخی کارشناسان اعتبار «AIME» را به‌عنوان معیار سنجش مدل‌های هوش مصنوعی زیر سؤال برده‌اند.

کارکنان OpenAI در شبکه اجتماعی X به‌سرعت متوجه شدند نمودار xAI امتیاز مدل o3-mini-high را در متریک «cons@64» لحاظ نکرده است. این متریک که مخفف consensus@64 است، به مدل اجازه می‌دهد 64 بار برای حل هر مسئله تلاش کند و پاسخ پرتکرارترین خروجی را به‌عنوان جواب نهایی ثبت شود. در بسیاری از موارد، این روش بهبود قابل‌توجهی در امتیازات مدل‌ها ایجاد می‌کند؛ بنابراین، حذف این معیار از مقایسه‌ها تصویر نادرستی از برتری Grok 3 ایجاد کرده است.

حذف یک متریک کلیدی از مقایسه‌ها

براساس بررسی‌های دقیق‌تر، مدل‌های Grok 3 Reasoning Beta و Grok 3 mini Reasoning در متریک @1 (اولین پاسخ تولیدی مدل) امتیاز پایین‌تری نسبت به o3-mini-high دارند. علاوه‌براین، مدل Grok 3 Reasoning Beta حتی در مقایسه با مدل o1-medium از OpenAI نیز عملکرد پایین‌تری دارد. باوجوداین، xAI همچنان Grok 3 را باهوش‌ترین هوش مصنوعی جهان معرفی می‌کند.

بابوشکین در پاسخ به انتقادات، OpenAI را به مقایسه‌های مشابه متهم و اشاره کرد آنها نیز در گذشته نمودارهای گمراه‌کننده منتشر کرده‌اند.

مطابق آنچه محقق هوش مصنوعی به‌ نام «نیتن لمبرت» (Nathan Lambert) می‌گوید، یکی از مهم‌ترین نکاتی که در این مقایسه‌ها نادیده‌ گرفته‌ شده، هزینه‌های رسیدن به بهترین عملکرد است. بدون دانستن این اطلاعات، مقایسه عملکرد مدل‌ها نمی‌تواند تصویری واقعی از توانایی‌های آنها ارائه دهد.

مشاهده متن کامل خبر در "دیجیاتو"