محققان چینی حوزه هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کردهاند که میتواند تنها با یک تصویر پرتره ثابت، ویدیوهایی واقعگرایانه و قابل کنترل از چهرههای درحال صحبتکردن تولید کند. این مدل از یک معماری پیشرفته مبتنی بر Video Diffusion Transformer بهره میبرد و با استفاده از تکنیکهای هماهنگسازی صوتی-تصویری، هماهنگی دقیقی میان حرکات لب، حالات چهره، حرکات بدن و صدای ورودی ایجاد میکند.
طبق توضیحات موجود در صفحه Github این پروژه، در قلب آن یک استراتژی دو مرحلهای برای همگامسازی صوت و تصویر وجود دارد.
در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و پسزمینه را با صدای ورودی هماهنگ میکند. در مرحله دوم، جزئیات حرکات لب با دقت فریمبهفریم و با استفاده از ماسکهای خاصی اصلاح میشود تا تطابق کامل با صدا حاصل شود.
یکی از چالشهای اساسی در حوزهی گرافیک و بینایی ماشین، تولید آواتارهای متحرک از یک تصویر ثابت بوده است. اغلب روشهای قبلی برای حفظ واقعگرایی و هماهنگی با صدا، از مدلهای سهبعدی میانجی مثل 3DMM یا FLAME استفاده میکردند. اما این روشها در بازتولید حرکات ظریف صورت و انیمیشنهای طبیعی ناکارآمد بودند.
در ویدیو زیر میتوانید برخی نمونههای ساختهشده توسط این مدل و مدلهای دیگر را با یکدیگر مقایسه کنید:
FantasyTalking همچنین از یک ماژول ویژه برای کنترل شدت حرکات استفاده میکند که امکان تنظیم میزان انیمیشن حالات چهره و بدن را فراهم میسازد. این ویژگی، تولید ویدیوهایی فراتر از حرکت لبها را ممکن میکند. برخلاف بسیاری از مدلهای دیگر، این سیستم برای حفظ هویت چهره از یک مکانیزم مبتنی بر چهره استفاده میکند که نتایج طبیعیتر و یکپارچهتری ارائه میدهد.
از دیگر تواناییهای این مدل میتوان به تولید ویدیوهای حرفزدن شخصیتها با زوایای مختلف (نمای نزدیک، نیمتنه، تمامقد، از روبهرو یا زاویهدار)، پشتیبانی از استایلهای گرافیکی مختلف (واقعگرایانه یا کارتونی) و حتی متحرکسازی (Animate) حیوانات اشاره کرد.
در مقایسه با روشهای بسته و پیشرفتهای مانند OmniHuman-1، مدل FantasyTalking کیفیت بالاتری از نظر واقعگرایی، حفظ هویت، انسجام حرکتی و تطابق صوتی-تصویری ارائه میدهد.