• :977
  • :11,373,316
وویجر تنسنت: تولید ویدئوهای سه‌بعدی تنها با یک عکس

وویجر تنسنت: تولید ویدئوهای سه‌بعدی تنها با یک عکس

شرکت تنسنت با معرفی مدل جدید هوش مصنوعی HunyuanWorld-Voyager توانست تنها با یک عکس، ویدئوهایی با عمق سه‌بعدی تولید کند. این فناوری امکان ساخت صحنه‌های شبه‌سه‌بعدی و بازسازی ابرنقاط را فراهم می‌سازد، هرچند هنوز با مدل‌های سه‌بعدی تعاملی کامل فاصله دارد.
تنسنت اخیراً از مدل هوش مصنوعی تازه‌ای به نام HunyuanWorld-Voyager رونمایی کرده است که می‌تواند با استفاده از یک تصویر ثابت، ویدئوهایی کوتاه از حرکت در یک فضای سه‌بعدی تولید کند. این سیستم، که وزن‌های آن به‌صورت آزاد منتشر شده‌اند، توالی 49 فریم (حدود دو ثانیه ویدئو) تولید می‌کند و کاربران قادرند با اتصال کلیپ‌ها چندین دقیقه فیلم مداوم بسازند. مهم‌ترین ویژگی آن، تولید همزمان ویدئو و داده‌های عمق است که امکان بازسازی سه‌بعدی بدون نیاز به مدل‌سازی سنتی را فراهم می‌کند.

عملکرد وویجر بر اساس ترکیب یک تصویر ورودی و مسیر دوربین تعریف‌شده توسط کاربر است. کاربر می‌تواند حرکاتی مانند پن‌کردن، تیلت یا حرکت رو به جلو را مشخص کند و سیستم به‌طور همزمان ویدئو و نقشه‌های عمق تولید می‌کند. مؤلفه‌ای به نام world cache در این فرآیند ابرنقاط سه‌بعدی را ذخیره کرده و با هر حرکت دوربین، آن‌ها را به دو بعد بازمی‌تاباند تا انسجام فضایی حفظ شود.

برای جلوگیری از اعوجاج، سیستم پس از تولید فریم‌ها آن‌ها را به نقاط سه‌بعدی تبدیل کرده و با داده‌های پیشین مقایسه می‌کند. این چرخه بازخوردی پایداری هندسی را تضمین می‌کند، اما با طولانی‌تر شدن ویدئو یا حرکات پیچیده‌تر، خطاها افزایش می‌یابند.

مدل وویجر با بیش از 100 هزار کلیپ ویدئویی، شامل تصاویر واقعی و صحنه‌های ساخته‌شده در موتور «آنریل انجین»، آموزش دیده است. تنسنت برای محاسبه داده‌های عمق هر فریم از یک خط لوله خودکار بهره برده و نیاز به داده‌های برچسب‌گذاری دستی را حذف کرده است.
 

با وجود پیشرفت‌های چشمگیر، اجرای مدل به منابع محاسباتی عظیمی نیاز دارد. حتی در وضوح 540p، حداقل 60 گیگابایت حافظه GPU لازم است و برای بهترین نتیجه 80 گیگابایت پیشنهاد می‌شود. تنسنت اعلام کرده است که با استفاده از فریم‌ورک xDiT، عملکرد مدل مقیاس‌پذیر است و یک سیستم با هشت GPU می‌تواند پردازش را حدود 6/7 برابر سریع‌تر از یک GPU انجام دهد.

در مقایسه با مدل‌هایی مانند Sora از اوپن‌اِی‌آی که بر واقع‌گرایی بصری تمرکز دارند، وویجر تأکید ویژه‌ای بر حفظ سازگاری هندسی میان فریم‌ها دارد. در معیار WorldScore دانشگاه استنفورد، وویجر امتیاز 77.62 کسب کرد و از رقبایی چون WonderWorld و CogVideoX-I2V پیشی گرفت.

با این حال، محدودیت‌هایی همچون هزینه بالای محاسباتی و نبود امکان استفاده در اتحادیه اروپا، بریتانیا و کره‌جنوبی باقی است. همچنین استفاده تجاری در مقیاس بسیار بزرگ نیازمند توافق‌های جداگانه با تنسنت خواهد بود. در حال حاضر، این فناوری بیش از هر چیز برای تولید ویدئو و آزمایش در بازسازی سه‌بعدی ارزشمند است، نه برای تجربه‌های تعاملی لحظه‌ای.

    *

    • آیفون ایر در برابر آیفون ۱۷ پرو؛ سبکی که قربانی قدرت نشد

      پس از سال‌ها استفاده از مدل‌های «پرو»، رایان کریستوفل تصمیم می‌گیرد امسال آیفون «ایر» را امتحان کند. تجربه او در سفری پرماجرا به دیزنی‌ورلد نشان می‌دهد که این گوشی سبک و باریک نه‌تنها کم نمی...

    • چرا زنان بیشتر از مردان عمر می‌کنند؟

      پژوهشی تازه نشان می‌دهد بیشتر عمر کردن زنان نسبت به مردان، تنها به سبک زندگی یا مراقبت بیشتر از سلامتی محدود نمی‌شود، بلکه در فرایندهای تکاملی ریشه دارد و الگویی است که در بسیاری از پستاندار...

    • سلطه خورشید بر شبکه برق اروپا

      انرژی‌های تجدیدپذیر در سه‌ماهه دوم سال ۲۰۲۵ بیش از نیمی از برق اتحادیه اروپا را تأمین کردند و خورشید برای نخستین بار در صدر منابع تولید برق این اتحادیه قرار گرفت.طبق داده‌های تازه یوروا...

    • واکسن آلرژی غذایی و فصلی در راه است

      یک واکسن جدید بر پایه‌ آران‌ای پیام‌رسان (mRNA) موفق شده است از ایجاد واکنش‌های ایمنی خطرناک و التهاب تهدیدکننده‌ حیات ناشی از آلرژن‌ها در موش‌ها جلوگیری کند. این واکسن تحقیقاتی که پژوهشگران...

    با وجود سالها تجربه بر آن شدیم تا محصولی برای جمع آوری اخبار مهم از موضوع های مهم و مورد دغدغه بازدید کنندگان عزیز مهیا سازیم و همچنین ابزاری جهت اطلاع از آخرین قیمت بازارهای مالی نیز فراهم کرده ایم

    دوشنبه، 14 مهر 1404