وویجر تنسنت: تولید ویدئوهای سه‌بعدی تنها با یک عکس

فناوری
1404/06/23

شرکت تنسنت با معرفی مدل جدید هوش مصنوعی HunyuanWorld-Voyager توانست تنها با یک عکس، ویدئوهایی با عمق سه‌بعدی تولید کند. این فناوری امکان ساخت صحنه‌های شبه‌سه‌بعدی و بازسازی ابرنقاط را فراهم می‌سازد، هرچند هنوز با مدل‌های سه‌بعدی تعاملی کامل فاصله دارد.

تنسنت اخیراً از مدل هوش مصنوعی تازه‌ای به نام HunyuanWorld-Voyager رونمایی کرده است که می‌تواند با استفاده از یک تصویر ثابت، ویدئوهایی کوتاه از حرکت در یک فضای سه‌بعدی تولید کند. این سیستم، که وزن‌های آن به‌صورت آزاد منتشر شده‌اند، توالی 49 فریم (حدود دو ثانیه ویدئو) تولید می‌کند و کاربران قادرند با اتصال کلیپ‌ها چندین دقیقه فیلم مداوم بسازند. مهم‌ترین ویژگی آن، تولید همزمان ویدئو و داده‌های عمق است که امکان بازسازی سه‌بعدی بدون نیاز به مدل‌سازی سنتی را فراهم می‌کند.

عملکرد وویجر بر اساس ترکیب یک تصویر ورودی و مسیر دوربین تعریف‌شده توسط کاربر است. کاربر می‌تواند حرکاتی مانند پن‌کردن، تیلت یا حرکت رو به جلو را مشخص کند و سیستم به‌طور همزمان ویدئو و نقشه‌های عمق تولید می‌کند. مؤلفه‌ای به نام world cache در این فرآیند ابرنقاط سه‌بعدی را ذخیره کرده و با هر حرکت دوربین، آن‌ها را به دو بعد بازمی‌تاباند تا انسجام فضایی حفظ شود.

برای جلوگیری از اعوجاج، سیستم پس از تولید فریم‌ها آن‌ها را به نقاط سه‌بعدی تبدیل کرده و با داده‌های پیشین مقایسه می‌کند. این چرخه بازخوردی پایداری هندسی را تضمین می‌کند، اما با طولانی‌تر شدن ویدئو یا حرکات پیچیده‌تر، خطاها افزایش می‌یابند.

مدل وویجر با بیش از 100 هزار کلیپ ویدئویی، شامل تصاویر واقعی و صحنه‌های ساخته‌شده در موتور «آنریل انجین»، آموزش دیده است. تنسنت برای محاسبه داده‌های عمق هر فریم از یک خط لوله خودکار بهره برده و نیاز به داده‌های برچسب‌گذاری دستی را حذف کرده است.

با وجود پیشرفت‌های چشمگیر، اجرای مدل به منابع محاسباتی عظیمی نیاز دارد. حتی در وضوح 540p، حداقل 60 گیگابایت حافظه GPU لازم است و برای بهترین نتیجه 80 گیگابایت پیشنهاد می‌شود. تنسنت اعلام کرده است که با استفاده از فریم‌ورک xDiT، عملکرد مدل مقیاس‌پذیر است و یک سیستم با هشت GPU می‌تواند پردازش را حدود 6/7 برابر سریع‌تر از یک GPU انجام دهد.

در مقایسه با مدل‌هایی مانند Sora از اوپن‌اِی‌آی که بر واقع‌گرایی بصری تمرکز دارند، وویجر تأکید ویژه‌ای بر حفظ سازگاری هندسی میان فریم‌ها دارد. در معیار WorldScore دانشگاه استنفورد، وویجر امتیاز 77.62 کسب کرد و از رقبایی چون WonderWorld و CogVideoX-I2V پیشی گرفت.

با این حال، محدودیت‌هایی همچون هزینه بالای محاسباتی و نبود امکان استفاده در اتحادیه اروپا، بریتانیا و کره‌جنوبی باقی است. همچنین استفاده تجاری در مقیاس بسیار بزرگ نیازمند توافق‌های جداگانه با تنسنت خواهد بود. در حال حاضر، این فناوری بیش از هر چیز برای تولید ویدئو و آزمایش در بازسازی سه‌بعدی ارزشمند است، نه برای تجربه‌های تعاملی لحظه‌ای.