به گزارش تک کرانچ، حسابیس گفت: ما از ابتدا جمینای را به گونهای ساختیم که چندوجهی باشد. دلیل ما این بود که چشماندازی را برای ایده ساخت یک دستیار دیجیتال جهانی داریم؛ دستیاری که در دنیای واقعی به شما کمک میکند. صنعت هوش مصنوعی به تدریج به سمت مدلهای «اومنی» (omni) حرکت میکند. به عبارت دیگر، به سوی مدلهایی میرود که میتوانند بسیاری از اشکال رسانه را درک و ترکیب کنند. جدیدترین مدلهای جمینای گوگل میتوانند علاوه بر تصویر و متن، صدا نیز تولید کنند؛ در حالی که مدل پیشفرض «چتجیپیتی» (ChatGPT) شرکت «اوپنایآی» (OpenAI) در حال حاضر میتواند تصاویر را ایجاد کند.
شرکت «آمازون» نیز اعلام کرده است که قصد دارد مدل «any-to-any» را در اواخر سال جاری میلادی راهاندازی کند. مدلهای اومنی به دادههای آموزشی زیادی مانند تصاویر، ویدئوها، صدا و متن نیاز دارند. حسابیس تلویحا گفت دادههای ویدئویی برای وئو عمدتا از پلتفرم یوتیوب که گوگل مالک آن است، تامین میشوند. حسابیس گفت: اساسا «وئو ۲» با تماشای ویدئوهای یوتیوب - تعداد زیادی ویدئوی یوتیوب - میتواند فیزیک جهان را بفهمد.
گوگل پیش از این در مصاحبه با تککرانچ گفته بود که مدلهایش ممکن است طبق توافق آن با سازندگان محتوای یوتیوب، با برخی از محتوای این پلتفرم آموزش ببینند. براساس گزارشها، این شرکت سال گذشته شرایط خدمات خود را گسترش داده است تا بتواند از دادههای بیشتری برای آموزش مدلهای هوش مصنوعی خود استفاده کند.