
وویجر تنسنت: تولید ویدئوهای سهبعدی تنها با یک عکس
شرکت تنسنت با معرفی مدل جدید هوش مصنوعی HunyuanWorld-Voyager توانست تنها با یک عکس، ویدئوهایی با عمق سهبعدی تولید کند. این فناوری امکان ساخت صحنههای شبهسهبعدی و بازسازی ابرنقاط را فراهم میسازد، هرچند هنوز با مدلهای سهبعدی تعاملی کامل فاصله دارد.
با وجود پیشرفتهای چشمگیر، اجرای مدل به منابع محاسباتی عظیمی نیاز دارد. حتی در وضوح 540p، حداقل 60 گیگابایت حافظه GPU لازم است و برای بهترین نتیجه 80 گیگابایت پیشنهاد میشود. تنسنت اعلام کرده است که با استفاده از فریمورک xDiT، عملکرد مدل مقیاسپذیر است و یک سیستم با هشت GPU میتواند پردازش را حدود 6/7 برابر سریعتر از یک GPU انجام دهد.
در مقایسه با مدلهایی مانند Sora از اوپناِیآی که بر واقعگرایی بصری تمرکز دارند، وویجر تأکید ویژهای بر حفظ سازگاری هندسی میان فریمها دارد. در معیار WorldScore دانشگاه استنفورد، وویجر امتیاز 77.62 کسب کرد و از رقبایی چون WonderWorld و CogVideoX-I2V پیشی گرفت.
با این حال، محدودیتهایی همچون هزینه بالای محاسباتی و نبود امکان استفاده در اتحادیه اروپا، بریتانیا و کرهجنوبی باقی است. همچنین استفاده تجاری در مقیاس بسیار بزرگ نیازمند توافقهای جداگانه با تنسنت خواهد بود. در حال حاضر، این فناوری بیش از هر چیز برای تولید ویدئو و آزمایش در بازسازی سهبعدی ارزشمند است، نه برای تجربههای تعاملی لحظهای.
تنسنت اخیراً از مدل هوش مصنوعی تازهای به نام HunyuanWorld-Voyager رونمایی کرده است که میتواند با استفاده از یک تصویر ثابت، ویدئوهایی کوتاه از حرکت در یک فضای سهبعدی تولید کند. این سیستم، که وزنهای آن بهصورت آزاد منتشر شدهاند، توالی 49 فریم (حدود دو ثانیه ویدئو) تولید میکند و کاربران قادرند با اتصال کلیپها چندین دقیقه فیلم مداوم بسازند. مهمترین ویژگی آن، تولید همزمان ویدئو و دادههای عمق است که امکان بازسازی سهبعدی بدون نیاز به مدلسازی سنتی را فراهم میکند.
عملکرد وویجر بر اساس ترکیب یک تصویر ورودی و مسیر دوربین تعریفشده توسط کاربر است. کاربر میتواند حرکاتی مانند پنکردن، تیلت یا حرکت رو به جلو را مشخص کند و سیستم بهطور همزمان ویدئو و نقشههای عمق تولید میکند. مؤلفهای به نام world cache در این فرآیند ابرنقاط سهبعدی را ذخیره کرده و با هر حرکت دوربین، آنها را به دو بعد بازمیتاباند تا انسجام فضایی حفظ شود.
برای جلوگیری از اعوجاج، سیستم پس از تولید فریمها آنها را به نقاط سهبعدی تبدیل کرده و با دادههای پیشین مقایسه میکند. این چرخه بازخوردی پایداری هندسی را تضمین میکند، اما با طولانیتر شدن ویدئو یا حرکات پیچیدهتر، خطاها افزایش مییابند.
مدل وویجر با بیش از 100 هزار کلیپ ویدئویی، شامل تصاویر واقعی و صحنههای ساختهشده در موتور «آنریل انجین»، آموزش دیده است. تنسنت برای محاسبه دادههای عمق هر فریم از یک خط لوله خودکار بهره برده و نیاز به دادههای برچسبگذاری دستی را حذف کرده است.
عملکرد وویجر بر اساس ترکیب یک تصویر ورودی و مسیر دوربین تعریفشده توسط کاربر است. کاربر میتواند حرکاتی مانند پنکردن، تیلت یا حرکت رو به جلو را مشخص کند و سیستم بهطور همزمان ویدئو و نقشههای عمق تولید میکند. مؤلفهای به نام world cache در این فرآیند ابرنقاط سهبعدی را ذخیره کرده و با هر حرکت دوربین، آنها را به دو بعد بازمیتاباند تا انسجام فضایی حفظ شود.
برای جلوگیری از اعوجاج، سیستم پس از تولید فریمها آنها را به نقاط سهبعدی تبدیل کرده و با دادههای پیشین مقایسه میکند. این چرخه بازخوردی پایداری هندسی را تضمین میکند، اما با طولانیتر شدن ویدئو یا حرکات پیچیدهتر، خطاها افزایش مییابند.
مدل وویجر با بیش از 100 هزار کلیپ ویدئویی، شامل تصاویر واقعی و صحنههای ساختهشده در موتور «آنریل انجین»، آموزش دیده است. تنسنت برای محاسبه دادههای عمق هر فریم از یک خط لوله خودکار بهره برده و نیاز به دادههای برچسبگذاری دستی را حذف کرده است.

با وجود پیشرفتهای چشمگیر، اجرای مدل به منابع محاسباتی عظیمی نیاز دارد. حتی در وضوح 540p، حداقل 60 گیگابایت حافظه GPU لازم است و برای بهترین نتیجه 80 گیگابایت پیشنهاد میشود. تنسنت اعلام کرده است که با استفاده از فریمورک xDiT، عملکرد مدل مقیاسپذیر است و یک سیستم با هشت GPU میتواند پردازش را حدود 6/7 برابر سریعتر از یک GPU انجام دهد.
در مقایسه با مدلهایی مانند Sora از اوپناِیآی که بر واقعگرایی بصری تمرکز دارند، وویجر تأکید ویژهای بر حفظ سازگاری هندسی میان فریمها دارد. در معیار WorldScore دانشگاه استنفورد، وویجر امتیاز 77.62 کسب کرد و از رقبایی چون WonderWorld و CogVideoX-I2V پیشی گرفت.
با این حال، محدودیتهایی همچون هزینه بالای محاسباتی و نبود امکان استفاده در اتحادیه اروپا، بریتانیا و کرهجنوبی باقی است. همچنین استفاده تجاری در مقیاس بسیار بزرگ نیازمند توافقهای جداگانه با تنسنت خواهد بود. در حال حاضر، این فناوری بیش از هر چیز برای تولید ویدئو و آزمایش در بازسازی سهبعدی ارزشمند است، نه برای تجربههای تعاملی لحظهای.
*