به گزارش تککرانچ، اوپنایآی هنگام رونمایی این مدل را در دسامبر ۲۰۲۴ میلادی مدعی شد o۳ میتواند بیش از یکچهارم سوالات در بنچمارک FrontierMath (مجموعهای چالشبرانگیز از مسالههای ریاضی) را پاسخ دهد. مارک چن، محقق ارشد اوپنایآی، در یک برنامه پخش زنده گفت: «امروز تمام محصولات ارائه شده در بنچمارک FrontierMath کمتر از دو درصد امتیاز دارند. ما در تستهای داخلیo۳ که در محیطهای رایانشی با عملکرد بالا انجام شد، به امتیاز بیش از ۲۵ درصد دست یافتیم.
به نظر میرسد این رقم احتمالا حد بالایی بود که توسط نسخهای از o۳ با محاسبات بیشتر نسبت به مدل OpenAI که هفته گذشته بهطور عمومی عرضه شد، به دست آمد. انستیتو تحقیقات Epoch AI که بنچمارک FrontierMath را ارائه میکند، نتایج تستهای مستقل خود از o۳ را منتشر کرد. این شرکت متوجه شد امتیاز این مدل حدود ۱۰ درصد و بسیار پایینتر از ارقام بسیار بالای ادعا شده توسط اوپنایآی است.