متا با همکاری دانشگاه «واترلو» از پروژه تحقیقاتی جدیدی به نام MoCha (مخفف Movie Character Animator) رونمایی کرده است. این هوش مصنوعی پیشرفته میتواند با کمک پرامپت متنی و نمونه صوتی، ویدیوهایی تولید کند که در آن شخصیتها بسیار طبیعی صحبت میکنند، احساساتشان را نمایش میدهند و حتی حرکات بدنشان نیز هماهنگ با صدا و محتواست.
MoCha میتواند چند شخصیت را همزمان در یک صحنه پردازش کند و حتی حالات چهره، حرکت چشم و ریتم گفتار را تا حد زیادی طبیعی کند. طبق گزارش «BGR» در نمونههای منتشرشده، شخصیتها چه انیمیشنی چه لایواکشن، جملات را با دقت اجرا کردهاند. هرچند هنوز در جزئیاتی مانند حرکت اغراقآمیز دهان یا چشم، ردپای مصنوعی بودن مشخص است، خروجی در صفحه گوشی شاید بهسختی از واقعیت قابلتشخیص باشد.
علاوهبراین، هوش مصنوعی MoCha در برخی نمونهها توانسته حرکات بدن را نیز با گفتار هماهنگ کند. این سطح از هماهنگی میان صوت و تصویر آن را به ابزاری قدرتمند برای ساخت محتوای ویدیویی در حوزههای سینمایی، آموزشی و تبلیغاتی تبدیل کرده است. اگر توسعه این مدل ادامه یابد و خطاهای جزئی اصلاح شوند، MoCha میتواند یکی از پیشرفتهترین ابزارهای تولید محتوای تصویری هوشمند در سالهای آینده باشد.
ابزارهایی مانند MoCha، در کنار مزایایشان، نگرانیهایی درباره سوءاستفاده برای تولید دیپفیک ایجاد کردهاند. پروژههایی مانند Runway Gen-4 ،VASA-1 و OmniHuman-1 نیز ازجمله مدلهایی هستند که امکان تبدیل عکس و صدا به ویدیو را دارند. نکته نگرانکننده اینجاست که اغلب این مدلها، ازجمله MoCha، درباره منبع دادههای آموزشیشان شفاف نیستند. مقالهای درباره این مدل میگوید MoCha با 500 هزار نمونه شامل 300 ساعت ویدیوی سخنرانی باکیفیت آموزش داده شده است.
ابهام درباره منابع داده آموزشی نهفقط نگرانیهایی درمورد رعایت حقوق مالکیت معنوی و حریم خصوصی افراد ایجاد میکند، بلکه احتمال استفاده از دادهها بدون رضایت صاحبت محتوا را نیز به وجود میآورد. این موضوع بهویژه زمانی نگرانکننده میشود که خروجی این مدلها تا این حد به واقعیت نزدیک باشند و بتوانند بهراحتی مخاطبان را فریب دهند؛ در نتیجه، توسعه و عرضه عمومی ابزارهایی مانند MoCha باید با چارچوبهای اخلاقی و قوانین شفاف همراه باشد تا مانع سوءاستفادههای احتمالی شود.