گوگل و هاروارد مجموعه داده عظیمی با 1 میلیون کتاب برای آموزش هوش مصنوعی تولید می‌کنند

دیجیاتو جمعه 23 آذر 1403 - 14:32
مایکروسافت و OpenAI نیز از جمله سرمایه‌گذاران این پروژه خواهند بود که داده‌های آموزشی هوش مصنوعی را در دسترس همه قرار می‌دهد. The post گوگل و هاروارد مجموعه داده عظیمی با 1 میلیون کتاب برای آموزش هوش مصنوعی تولید می‌کنند appeared first on دیجیاتو.

شرکت‌های حوزه فناوری برای آموزش مدل‌های هوش مصنوعی خود باید از داده‌هایی استفاده کنند که معمولاً با هزینه زیادیی در اختیار آنها قرار می‌گیرد. به همین دلیل اکنون دانشگاه هاروارد اعلام کرده که می‌خواهد مجموعه داده‌ای را منتشر کند که شامل حدود 1 میلیون کتاب دارای مالکیت عمومی در سبک و زبان‌های مختلف از نویسندگانی مانند «چارلز دیکنز» و «شکسپیر» می‌شود که به دلیل سن آنها دیگر تحت قانون کپی‌رایت قرار نمی‌گیرند.

همانطور که WIRED گزارش می‌دهد، این مجموعه داده هنوز در دسترس قرار نگرفته و مشخص نیست چه زمانی منتشر می‌شود. بااین‌حال گفته می‌شود که شامل کتاب‌هایی است که از پروژه قدیمی اسکن کتاب گوگل، یعنی Google Books مشتق شده‌اند، بنابراین غول فناوری نیز در انتشار آن مشارکت خواهد داشت.

تلاش بزرگ برای ساده‌ترکردن آموزش هوش مصنوعی

دانشگاه هاروارد اولین بار در ماه مارس سال جاری از این مجموعه داده با عنوان «ابتکار داده‌های سازمان» (IDI) خبر داده بود و برنامه‌ها خود برای ساخت یک «پل ارتباطی قابل اعتماد برای داده‌های قانونی مورد نیاز هوش مصنوعی» را اعلام کرد.

بااین‌حال تاکنون اطلاعات بیشتری از این پروژه منتشر نشده است و فقط گفته شده که مایکروسافت و OpenAI نیز از جمله سرمایه‌گذاران آن خواهند بود.

«گرگ لپرت»، مدیر اجرایی IDI می‌گوید که این مجموعه داده با در دسترس قراردادن چنین اطلاعات عظیمی برای هر کسی (از آزمایشگاه‌های تحقیقاتی گرفته تا استارتاپ‌های هوش مصنوعی) که می‌خواهد مدل زبانی بزرگ (LLM) خود را توسعه بدهد، هدف «همسطح‌کردن حوزه رقابت» را دنبال می‌کند.

منبع خبر "دیجیاتو" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.