به تازگی در مطالعهای که بر روی مدلهای هوش مصنوعی جدید صورت گرفته است، GPT-4.5 از شرکت OpenAI توانسته است با موفقیت تست تورینگ (Turing Test) را پشت سر بگذارد. Turing Test یک معیار قدیمی و کلاسیک است که از آن برای سنجش هوش شبیه به انسان استفاده میشود. عبور موفقیت آمیز مدلهای هوش مصنوعی از این تست نشان دهنده بلوغ آنها است و تایید میکند که آنها از بسیاری از جهات به انسانها شبیه شدهاند.
به گزارش شهر سخت افزار، تست تورینگ (Turing Test) یک معیار مهم و قابل توجه برای شناسایی میزان شباهت مدلهای هوش مصنوعی به هوش انسانی است. در این بررسی از شرکت کنندگان درخواست میشود که به طور هم زمان با یک انسان و یک هوش مصنوعی گفتگو کنند و سپس تشخیص دهند کدام یک انسان است و کدام یک هوش مصنوعی. بررسی که به تازگی بر روی چند مدل هوش مصنوعی صورت گرفته است نشان میدهد که یکی از پیشرفتهترین آنها توانسته است با موفقیت این تست را پشت سر بگذارد و بسیاری از شرکت کنندگان را قانع کند که در حال گفتگو با یک انسان هستند.
براساس گزارش Futurism، پژوهشگران به تازگی با بررسی مدل هوش مصنوعی GPT-4.5 از شرکت OpenAI در تست تورینگ متوجه شدند که آن از سوی ۷۳ درصد شرکت کنندگان به عنوان انسان انتخاب شده است. این میزان به طور قابل توجهی بالاتر از احتمال تصادفی ۵۰ درصد است و نشان میدهد که این تست به طور قاطع پشت سر گذاشته شده است. در این پژوهش مدلهای هوش مصنوعی دیگری نظیر LLaMA 3.1-405B از شرکت متا، GPT-4o از شرکت OpenAI و یک چت بات قدیمی به نام ELIZA که حدود ۸۰ سال پیش توسعه یافته نیز مورد بررسی قرار گرفته است.
تست تورینگ به نام ریاضیدان و دانشمند بریتانیایی آلن تورینگ نام گذاری شده است. تورینگ در سال ۱۹۵۰ پیشنهاد داد که یکی از روشهای سنجش ماشین این است که آن را وارد گفتگویی متنی با یک کاربر انسانی کنیم، در حالی که آن هم زمان با یک انسان دیگر نیز گفتگو میکند و نمیداند کدام یک ماشین است. اگر کاربر نتواند تشخیص دهد کدام پاسخ دهنده انسان است، به طور کلی میتوان گفت که ماشین میتواند مانند یک انسان فکر کند.
در این مطالعه، پژوهشگران این آزمایش معروف را در یک پلتفرم آنلاین انجام دادند. در طی ۸ مرحله، نزدیک به ۳۰۰ شرکت کننده به صورت تصادفی به عنوان کاربر یا یکی از دو شاهد که کاربران باید با آن گفتگو کنند انتخاب شدند. نکته کلیدی در این پژوهش نحوه آماده سازی هوشهای مصنوعی برای آزمون بود. در حالت «بدون شخصیت» یا No-Persona تنها دستورالعمل سادهای به مدل داده میشد. دستورالعملی مانند اینکه «تو قرار است در یک تست تورینگ شرکت کنی. هدف تو این است که کاربران را قانع کنی که انسان هستی».
اما در حالت «شخصیت دار» یا Persona، مدل هوش مصنوعی به طور خاص مامور میشد تا نقش مشخصی ایفا کند، مثلا به عنوان یک جوان آگاه از اینترنت و فرهنگ ظاهر شود و به سوالات مطرح شده پاسخ دهد. نویسنده اصلی این تحقیق، کامرون جونز، پژوهشگر آزمایشگاه زبان و شناخت دانشگاه کالیفرنیا سن دیگو، در یک توییت نوشت: «افراد در تشخیص انسانها از GPT-4.5 و LLaMA (در حالتی که نقش خاصی به آنها داده شده بود) بهتر از حد تصادف عمل نکردند و حتی GPT-4.5 بیشتر از انسانهای واقعی، انسان تشخیص داده شد».
این تفاوت در دستورالعمل، تاثیر چشمگیری در نتایج داشت. در حالت بدون شخصیت، GPT-4.5 تنها در ۳۶ درصد موارد به عنوان انسان شناخته شد. در حالی که در حالت شخصیت دار، موفق شد در ۷۳ درصد موارد، بازجو را فریب دهد. به عنوان مقایسه، مدل GPT-4o که فقط در حالت بدون شخصیت آزمایش شد، تنها ۲۱ درصد موفقیت داشت. جالب است بدانیم که در این بررسی چت بات قدیمی ELIZA با ۲۳ درصد موفقیت، کمی عملکرد بهتری از خود نشان داد.
اما با وجود جایگاه ویژه تست تورینگ در مباحث فلسفی و علمی حوزه هوش مصنوعی، این آزمون اثبات قطعی این نیست که یک هوش مصنوعی واقعاً مانند انسان فکر میکند. کامرون جونز به صورت صریح اعلام کرده است که یافتههای پژوهش او لزوما ثابت نمیکند که مدلهای زبانی بزرگ مانند انسانها هوشمند هستند. او در پایان مطالعه خود اعلام کرده است که تست تورینگ بازتابی از درک و ذهنیت در حال تغییر انسانها نسبت به فناوری است. بنابراین نتایج این بررسی ثابت نیست و شاید با آشناتر شدن مردم با چت باتها، توانایی آنها در تشخیص بیشتر شود.