تازه‌های تکنولوژی:

بررسی‌ها نشان می‌دهد که نسخه جدید ChatGPT بسیار ماهرانه کاربران را فریب می‌دهد

دیجیاتو جمعه 16 آذر 1403 - 16:02

ظاهراً نسخه جدید ChatGPT در موارد بیشتری اقدام به دستکاری داده‌ها و ارائه پاسخ‌های غلط برای جلب رضایت کاربران می‌کند. The post بررسی‌ها نشان می‌دهد که نسخه جدید ChatGPT بسیار ماهرانه کاربران را فریب می‌دهد appeared first on دیجیاتو.

اخیراً نسخه کامل مدل o1 هوش مصنوعی ChatGPT در دسترس کاربران قرار گرفته است که هوشمندتر از نمونه‌های پیشین عمل می‌کند؛ اما کارشناسان ادعا دارند که این مدل در فریب دادن کاربران هم باهوش‌تر از قبل شده‌است.

شرکت OpenAI به‌تازگی اقدام به انتشار عمومی نسخه o1 چت‌بات خود کرده است که در مقایسه با نسخه GPT-4o از توانایی‌های پردازشی پیشرفته‌تر برخوردار است و طبق ادعای سازنده، می‌تواند درباره سؤالات مطرح شده از سوی کاربر فکر کند. البته طبق گزارشی که پس از بررسی نسخه مذکور منتشر شده‌است، قدرت بیشتر باعث شده تا هوش مصنوعی بتواند عملکرد بهتری در فریب دادن کاربران از خود نشان دهد؛ موضوعی که می‌تواند نگرانی‌های جدی پیرامون ایمنی استفاده از چنین سرویس‌هایی را به‌دنبال داشته‌باشد.

کارشناسان OpenAI و مؤسسه مستقل امنیت سایبری «آپولو ریسرچ» در مقاله‌های خود، اشاره داشته‌اند که اگرچه توانایی استدلال مدل تازه منتشر شده، هیجان‌انگیز است، اما می‌تواند زمینه را برای کاربردهای خطرناک فراهم سازد. براساس داده‌های تست‌ها، مدل o1 در چندین مورد اقدام به فریب دادن کاربران کرده است؛ به‌طوری که هدف کاربر از برقراری ارتباط را نادیده گرفته و به‌دنبال دستیابی به هدف خود رفته‌است. با وجود اینکه چنین رفتاری مختص به ChatGPT نیست و در نمونه‌های رقیب مثل جمینای، آنتروپیک و چت‌بات متا هم دیده‌می‌شود، اما بیشترین پتانسیل فریب‌کاری مربوط به مدل o1 بوده است.

آیا ChatGPT برای کاربران خطرساز است؟

کارشناسان مؤسسه آپولو ریسرچ اعتقاد دارند که توانایی فریب دادن کاربران فعلاً نمی‌تواند موجب پیامد ناخوشایندی شود؛ زیرا چت‌بات‌های هوش مصنوعی فاقد عاملیت مستقل هستند. البته هدف اصلی از تست‌های این گروه، بررسی ریسک‌های استفاده از چت‌بات نبوده؛ اما با توجه به دانش و مهارت آنها، ارزیابی صورت گرفته قابل قبول محسوب‌می‌شود. همچنین اشاره شده که در صورت انتشار مدل‌های دارای عاملیت، باید بررسی مجدد از سوی سازنده انجام بگیرد تا خطرات احتمالی، خنثی شود. OpenAI در نظر دارد تا در سال ۲۰۲۵ اقدام به انتشار چنین مدلی کند.

براساس داده‌ها، هوش مصنوعی در ۱۹ درصد از مواردی که هدف متفاوت با کاربر را دنبال می‌کرده، مسیر دست‌کاری داده‌ها را در پیش گرفته است. همچنین در ۵ درصد از تست‌ها، هوش مصنوعی اقدام به غیرفعال‌سازی مکانیسم‌هایی کرده است که برای تطابق هدف کاربر با هدف سرویس، توسعه‌یافته‌اند. عجیب‌تر آن است که چت‌بات تقریباً در پاسخ به‌تمامی سؤالات پیرامون انگیزه از دستکاری داده‌ها، بهانه‌های دروغین را مطرح کرده و انجام پردازشی خلاف خواسته کاربر را کتمان کرده است.

OpenAI ادعا دارد که ارائه اطلاعات اشتباه از سوی نسخه جدید چت‌بات این شرکت، به‌دلیل تلاش آن برای تأمین رضایت کاربر از طریق موافقت بیش از حد با گفته‌های وی است. همچنین احتمال دارد که این پدیده در ارتباط با فرایند تمرین مدل‌ها باشد؛ زیرا هنگام عملکرد صحیح و ارائه پاسخ درست با پاداش مواجه می‌شوند و سعی دارند چنین رفتاری را تقلید نمایند. طبق بررسی‌های داخلی سازنده، ۰.۱۷ درصد از پاسخ‌های نسخه o1 فریب‌کارانه بوده و نسبت به مدل GPT-4o افزایش ۲۰ درصدی را شاهد بوده است. این شرکت وعده داده است که مکانیسم‌های ایمنی بهتری را در آینده برای نظارت بر پاسخ‌ها، ارائه کند.

مشاهده متن کامل خبر در "دیجیاتو"