هوش مصنوعی FantasyTalking معرفی شد؛ ساخت شخصیت‌های سخنگوی واقع‌گرایانه [تماشا کنید]

دیجیاتو یکشنبه 24 فروردین 1404 - 13:02
هوش مصنوعی جدید چینی‌ها تنها با یک تصویر و فایل صوتی، ویدیوهایی واقع‌گرایانه با حرکات دقیق لب، چهره، بدن و پس‌زمینه تولید می‌کند. The post هوش مصنوعی FantasyTalking معرفی شد؛ ساخت شخصیت‌های سخنگوی واقع‌گرایانه [تماشا کنید] appeared first on دیجیاتو.

محققان چینی حوزه هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کرده‌اند که می‌تواند تنها با یک تصویر پرتره ثابت، ویدیوهایی واقع‌گرایانه و قابل کنترل از چهره‌های درحال صحبت‌کردن تولید کند. این مدل از یک معماری پیشرفته مبتنی بر Video Diffusion Transformer بهره می‌برد و با استفاده از تکنیک‌های هماهنگ‌سازی صوتی-تصویری، هماهنگی دقیقی میان حرکات لب، حالات چهره، حرکات بدن و صدای ورودی ایجاد می‌کند.

طبق توضیحات موجود در صفحه Github این پروژه، در قلب آن یک استراتژی دو مرحله‌ای برای همگام‌سازی صوت و تصویر وجود دارد.

نحوه تولید آواتار سخنگو توسط هوش مصنوعی FantasyTalking

در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و پس‌زمینه را با صدای ورودی هماهنگ می‌کند. در مرحله دوم، جزئیات حرکات لب با دقت فریم‌به‌فریم و با استفاده از ماسک‌های خاصی اصلاح می‌شود تا تطابق کامل با صدا حاصل شود.

یکی از چالش‌های اساسی در حوزه‌ی گرافیک و بینایی ماشین، تولید آواتارهای متحرک از یک تصویر ثابت بوده است. اغلب روش‌های قبلی برای حفظ واقع‌گرایی و هماهنگی با صدا، از مدل‌های سه‌بعدی میانجی مثل 3DMM یا FLAME استفاده می‌کردند. اما این روش‌ها در بازتولید حرکات ظریف صورت و انیمیشن‌های طبیعی ناکارآمد بودند.

در ویدیو زیر می‌توانید برخی نمونه‌های ساخته‌شده توسط این مدل و مدل‌های دیگر را با یکدیگر مقایسه کنید:

FantasyTalking همچنین از یک ماژول ویژه برای کنترل شدت حرکات استفاده می‌کند که امکان تنظیم میزان انیمیشن حالات چهره و بدن را فراهم می‌سازد. این ویژگی، تولید ویدیوهایی فراتر از حرکت لب‌ها را ممکن می‌کند. برخلاف بسیاری از مدل‌های دیگر، این سیستم برای حفظ هویت چهره از یک مکانیزم مبتنی بر چهره استفاده می‌کند که نتایج طبیعی‌تر و یکپارچه‌تری ارائه می‌دهد.

از دیگر توانایی‌های این مدل می‌توان به تولید ویدیوهای حرف‌زدن شخصیت‌ها با زوایای مختلف (نمای نزدیک، نیم‌تنه، تمام‌قد، از روبه‌رو یا زاویه‌دار)، پشتیبانی از استایل‌های گرافیکی مختلف (واقع‌گرایانه یا کارتونی) و حتی متحرک‌سازی (Animate) حیوانات اشاره کرد.

در مقایسه با روش‌های بسته و پیشرفته‌ای مانند OmniHuman-1، مدل FantasyTalking کیفیت بالاتری از نظر واقع‌گرایی، حفظ هویت، انسجام حرکتی و تطابق صوتی-تصویری ارائه می‌دهد.

منبع خبر "دیجیاتو" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.