به گزارش تک کرانچ، این پژوهش که توسط پژوهشگران «دانشگاه واشنگتن»، «دانشگاه کپنهاگ» و «دانشگاه استنفورد» انجام شده است، روش جدیدی را برای شناسایی دادههای آموزشی پیشنهاد میکند که توسط مدلهای پشت یک API متعلق به شرکتهایی مانند اوپنایآی حفظ شدهاند. مدلهای هوش مصنوعی مانند موتورهای پیشبینی هستند. مدلهایی که روی دادههای زیادی آموزش دیدهاند، الگوها را یاد میگیرند و به این ترتیب میتوانند مقاله، عکس و خروجیهای دیگر را تولید کنند. بیشتر خروجیها کپی کلمهبهکلمه دادههای آموزشی نیستند، اما به دلیل روش یادگیری مدلها، برخی از موارد ناگزیر کپی میشوند. مشخص شده است که مدلهای تصویری از فیلمهایی که روی آنها آموزش دیدهاند، اسکرینشات میگیرند. همچنین در موارد بسیاری مشاهده شده است که مدلهای زبانی از مقالات خبری سرقت میکنند. پژوهشگران در این پروژه، چندین مدل شرکت اوپنایآی از جمله «GPT-۴» و «GPT-۳.۵» را برای یافتن نشانههایی از حفظ کردن با حذف کلمات از کتابهای داستانی و مقالات نیویورکتایمز بررسی کردند و از مدلها خواستند تا حدس بزنند کدام کلمات پوشانده شدهاند.
نویسندگان همکار به این نتیجه رسیدند که اگر مدلها به درستی حدس بزنند، احتمالا این متنها را در طول روند آموزش حفظ کردهاند. بر اساس نتایج آزمایشها، GPT-۴ نشانههایی را از حفظ کردن بخشهایی از کتابهای داستانی محبوب، از جمله کتابهای الکترونیکی دارای حق چاپ نشان داد. همچنین نتیجه آزمایشها نشان داد که این مدل هوش مصنوعی، بخشهایی را از مقالات نیویورک تایمز - البته با نرخ نسبتا پایینتر - حفظ کرده است. «ابیلاشا راویچاندر» (Abhilasha Ravichander)، دانشجوی دانشگاه واشنگتن و از پژوهشگران این پروژه خاطرنشان کرد که یافتهها، مدلهای دارای دادههای متضاد را آشکار کردند.
راویچاندر گفت: برای داشتن مدلهای زبانی بزرگ و قابل اعتماد باید مدلهایی داشته باشیم که بتوانیم آنها را تحت ارزیابی، ممیزی و بررسی علمی قرار دهیم. هدف پژوهش ما ارائه راهی برای بررسی مدلهای زبانی بزرگ است، اما نیاز واقعی به شفافیت بیشتر دادهها در کل اکوسیستم احساس میشود.