تازه‌های تکنولوژی:

جا به جایی مرز انسان و هوش مصنوعی توسط مدل GPT-4.5؛ وقتی 73 درصد کاربران تست تورینگ فریب خوردند

عصر ایران شنبه 16 فروردین 1404 - 11:06

تست تورینگ (Turing Test) یک معیار مهم و قابل توجه برای شناسایی میزان شباهت مدل‌های هوش مصنوعی به هوش انسانی است. در این بررسی از شرکت‌ کنندگان درخواست می‌شود که به طور هم ‌زمان با یک انسان و یک هوش مصنوعی گفتگو کنند و سپس تشخیص دهند کدام ‌یک انسان است و کدام یک هوش مصنوعی. بررسی که به تازگی بر روی چند مدل هوش مصنوعی صورت گرفته است نشان می‌دهد که یکی از پیشرفته‌ترین آن‌ها توانسته است با موفقیت این تست را پشت سر بگذارد و بسیاری از شرکت کنندگان را قانع کند که در حال گفتگو با یک انسان هستند.

به تازگی در مطالعه‌ای که بر روی مدل‌های هوش مصنوعی جدید صورت گرفته است، GPT-4.5 از شرکت OpenAI توانسته است با موفقیت تست تورینگ (Turing Test) را پشت سر بگذارد. Turing Test یک معیار قدیمی و کلاسیک است که از آن برای سنجش هوش شبیه به انسان استفاده می‌شود. عبور موفقیت آمیز مدل‌های هوش مصنوعی از این تست نشان دهنده بلوغ آن‌ها است و تایید می‌کند که آن‌ها از بسیاری از جهات به انسان‌ها شبیه‌ شده‌اند.

به گزارش شهر سخت افزار، تست تورینگ (Turing Test) یک معیار مهم و قابل توجه برای شناسایی میزان شباهت مدل‌های هوش مصنوعی به هوش انسانی است. در این بررسی از شرکت‌ کنندگان درخواست می‌شود که به طور هم ‌زمان با یک انسان و یک هوش مصنوعی گفتگو کنند و سپس تشخیص دهند کدام ‌یک انسان است و کدام یک هوش مصنوعی. بررسی که به تازگی بر روی چند مدل هوش مصنوعی صورت گرفته است نشان می‌دهد که یکی از پیشرفته‌ترین آن‌ها توانسته است با موفقیت این تست را پشت سر بگذارد و بسیاری از شرکت کنندگان را قانع کند که در حال گفتگو با یک انسان هستند.

براساس گزارش Futurism، پژوهشگران به تازگی با بررسی مدل هوش مصنوعی GPT-4.5 از شرکت OpenAI در تست تورینگ متوجه شدند که آن از سوی ۷۳ درصد شرکت کنندگان به عنوان انسان انتخاب شده است. این میزان به ‌طور قابل ‌توجهی بالاتر از احتمال تصادفی ۵۰ درصد است و نشان می‌دهد که این تست به‌ طور قاطع پشت سر گذاشته شده است. در این پژوهش مدل‌های هوش مصنوعی دیگری نظیر LLaMA 3.1-405B از شرکت متا، GPT-4o از شرکت OpenAI و یک چت ‌بات قدیمی به نام ELIZA که حدود ۸۰ سال پیش توسعه یافته نیز مورد بررسی قرار گرفته است.

تست تورینگ به نام ریاضیدان و دانشمند بریتانیایی آلن تورینگ نام‌ گذاری شده است. تورینگ در سال ۱۹۵۰ پیشنهاد داد که یکی از روش‌های سنجش ماشین این است که آن را وارد گفتگویی متنی با یک کاربر انسانی کنیم، در حالی که آن هم ‌زمان با یک انسان دیگر نیز گفتگو می‌کند و نمی‌داند کدام ‌یک ماشین است. اگر کاربر نتواند تشخیص دهد کدام پاسخ‌ دهنده انسان است، به‌ طور کلی می‌توان گفت که ماشین می‌تواند مانند یک انسان فکر کند.

در این مطالعه، پژوهشگران این آزمایش معروف را در یک پلتفرم آنلاین انجام دادند. در طی ۸ مرحله، نزدیک به ۳۰۰ شرکت ‌کننده به ‌صورت تصادفی به ‌عنوان کاربر یا یکی از دو شاهد که کاربران باید با آن گفتگو کنند انتخاب شدند. نکته کلیدی در این پژوهش نحوه‌ آماده‌ سازی هوش‌های مصنوعی برای آزمون بود. در حالت «بدون شخصیت» یا No-Persona تنها دستورالعمل ساده‌ای به مدل داده می‌شد. دستورالعملی مانند اینکه «تو قرار است در یک تست تورینگ شرکت کنی. هدف تو این است که کاربران را قانع کنی که انسان هستی».

اما در حالت «شخصیت‌ دار» یا Persona، مدل هوش مصنوعی به‌ طور خاص مامور می‌شد تا نقش مشخصی ایفا کند، مثلا به‌ عنوان یک جوان آگاه از اینترنت و فرهنگ ظاهر شود و به سوالات مطرح شده پاسخ دهد. نویسنده‌ اصلی این تحقیق، کامرون جونز، پژوهشگر آزمایشگاه زبان و شناخت دانشگاه کالیفرنیا سن دیگو، در یک توییت نوشت: «افراد در تشخیص انسان‌ها از GPT-4.5 و LLaMA (در حالتی که نقش خاصی به آن‌ها داده شده بود) بهتر از حد تصادف عمل نکردند و حتی GPT-4.5 بیشتر از انسان‌های واقعی، انسان تشخیص داده شد».

این تفاوت در دستورالعمل، تاثیر چشمگیری در نتایج داشت. در حالت بدون شخصیت، GPT-4.5 تنها در ۳۶ درصد موارد به ‌عنوان انسان شناخته شد. در حالی که در حالت شخصیت ‌دار، موفق شد در ۷۳ درصد موارد، بازجو را فریب دهد. به ‌عنوان مقایسه، مدل GPT-4o که فقط در حالت بدون شخصیت آزمایش شد، تنها ۲۱ درصد موفقیت داشت. جالب است بدانیم ‌که در این بررسی چت بات قدیمی ELIZA با ۲۳ درصد موفقیت، کمی عملکرد بهتری از خود نشان داد.

اما با وجود جایگاه ویژه‌ تست تورینگ در مباحث فلسفی و علمی حوزه هوش مصنوعی، این آزمون اثبات قطعی این نیست که یک هوش مصنوعی واقعاً مانند انسان فکر می‌کند. کامرون جونز به صورت صریح اعلام کرده است که یافته‌های پژوهش او لزوما ثابت نمی‌کند که مدل‌های زبانی بزرگ مانند انسان‌ها هوشمند هستند. او در پایان مطالعه خود اعلام کرده است که تست تورینگ بازتابی از درک و ذهنیت در حال تغییر انسان‌ها نسبت به فناوری است. بنابراین نتایج این بررسی ثابت نیست و شاید با آشناتر شدن مردم با چت ‌بات‌ها، توانایی آن‌ها در تشخیص بیشتر شود.