واشنگتن پست: OpenAI با ویدیوهای یوتیوب مدل Sora را آموزش داده است

فناوری
1404/07/22

تحقیقات تازه واشنگتن پست نشان می‌دهد که OpenAI در آموزش مدل تولید ویدیوی خود، Sora، از ویدیوهای منتشرشده در پلتفرم‌هایی مانند یوتیوب بهره برده است؛ آن‌هم بدون دریافت مجوز رسمی از صاحبان محتوا. این گزارش، بار دیگر بحث داغ استفاده غیراخلاقی از داده‌های عمومی در آموزش مدل‌های هوش مصنوعی را در سطح جهانی شعله‌ور کرده است.
روزنامه واشنگتن پست در گزارشی تحقیقی، جزئیات جدیدی را درباره داده‌هایی که شرکت OpenAI برای آموزش مدل تولید محتوای ویدیویی خود با نام Sora به کار برده، منتشر کرده است. این مدل که به‌تازگی نسخه دوم آن معرفی شده، یکی از پیشرفته‌ترین دستاوردهای اخیر در حوزه هوش مصنوعی مولد محسوب می‌شود و توجه گسترده‌ای را در سطح جهانی برانگیخته است.

کوین شاول، کارشناس گرافیک هوش مصنوعی در واشنگتن پست، اعلام کرده است که OpenAI احتمالاً از داده‌های موجود در فضای آنلاین بدون کسب مجوز از صاحبان اصلی آنها استفاده کرده است.

این روزنامه در گزارش خود به اظهارات پیشین تیم بروکس، یکی از اعضای ارشد پروژه Sora در سال ۲۰۲۴ میلادی، اشاره می‌کند که گفته بود شرکت از تمامی داده‌های در دسترس، بدون هیچ‌گونه تغییر در ساختار اصلی آن‌ها بهره برده است.

در مقابل، OpenAI اعلام کرده است که به‌صورت کلی از داده‌ها و کلیپ‌های ویدیویی «دردسترس عموم» و مواردی که مجوز لازم برای استفاده از آن‌ها موجود بوده، استفاده کرده است؛ اما منبع دقیق این کلیپ‌ها را مشخص نکرده است.

گزارش واشنگتن پست یادآور می‌شود که این رویکرد مشابه همان شیوه‌ای است که OpenAI پیش‌تر برای آموزش مدل ChatGPT به کار گرفته بود؛ روشی که بر پایه گردآوری گسترده داده‌ها از منابع متنوع آنلاین استوار بود.

بازسازی ویدیوهای واقعی با دقت بالا

این گزارش شامل یک آزمایش عملی نیز بود که توسط تیم این روزنامه انجام شد. در این آزمایش، تلاش شد تا صدها کلیپ ویدیویی برگرفته از فیلم‌ها، سریال‌های تلویزیونی و ویدیوهای محبوب یوتیوب بازسازی شوند.

تیم تحقیقاتی موفق شد با استفاده از منابع شناخته‌شده، کلیپ‌هایی مشابه صحنه‌هایی از سریال پرطرفدار (Wednesday) تولید کند و همچنین لوگوهایی از شرکت‌های مطرحی مانند برادران وارنر و دریم‌ورکس بسازد.

توانایی مدل حتی به تولید ویدیوهایی مشابه بازی‌های ویدیویی محبوبی چون ماینکرفت و بازسازی شخصیت‌های کارتونی شناخته‌شده نیز گسترش یافته است؛ محتوایی که به‌وفور در یوتیوب یافت می‌شود.

علاوه بر این، Sora قادر بوده است ویدیوهایی با واترمارک و نشان شبکه‌های خبری بین‌المللی از جمله NBA و همچنین کلیپ‌هایی مشابه محتوای تیک‌تاک تولید کند.

در بخشی از گزارش آمده است که این مدل حتی توانسته رقص‌های محبوب تیک‌تاک را با دقتی بسیار بالا بازسازی کند؛ موضوعی که نشان می‌دهد داده‌های آموزشی آن شامل ویدیوهای منتشرشده در این پلتفرم نیز بوده است.

وابستگی Sora 2 به پلتفرم‌های ویدیویی

با معرفی نسخه دوم این مدل، یعنی Sora 2، که اکنون قادر به تولید صدا از روی کلیپ‌های ویدیویی است، مشخص شد که OpenAI برای توسعه این مدل به میزان قابل‌توجهی به داده‌های موجود در پلتفرم‌های پخش ویدیو متکی بوده است.

در هفته‌های اخیر، ویدیوهایی در فضای مجازی منتشر شده که در آن‌ها چهره‌های مشهور جهان در حال بیان جملاتی غیرواقعی دیده می‌شوند، اما صدای تولیدشده به‌طرز چشمگیری مشابه صدای واقعی آنان است.

گزارش واشنگتن پست تأکید می‌کند که نتفلیکس (Netflix) و توییچ (Twitch) هیچ‌یک مجوز استفاده از محتوای خود را برای آموزش مدل‌های OpenAI صادر نکرده‌اند.

وابستگی ۷۰ درصدی مدل‌ها به داده‌های یوتیوب

جوآنا ماترزینسکا، پژوهشگر دکتری در دانشگاه MIT و از متخصصان حوزه داده در مدل‌های هوش مصنوعی، در مطالعه‌ای که سال گذشته انجام داد، نشان داد که حدود ۷۰ درصد از کتابخانه‌های داده مورد استفاده برای آموزش این مدل‌ها از یوتیوب استخراج می‌شوند؛ موضوعی که مستقیماً با سیاست‌های استفاده از محتوای این پلتفرم در تضاد است.

این مسئله صرفاً محدود به OpenAI نیست؛ گزارش مذکور به شرکت انویدیا (Nvidia) و مدل Runway نیز اشاره می‌کند که برای آموزش نسخه نهایی خود از ویدیوهای یوتیوب بهره گرفته است. اما انویدیا بر پایبندی به حقوق تولیدکنندگان محتوا و رعایت سیاست‌های پلتفرم‌ها تأکید دارد.

گوگل نیز در یکی از پست‌های رسمی خود اعلام کرده بود که از ویدیوهای یوتیوب برای آموزش مدل‌های هوش مصنوعی خود استفاده می‌کند، اما این کار را با رعایت کامل مقررات و سیاست‌های پلتفرم انجام می‌دهد.

در همین راستا، جک مالون، سخنگوی رسمی یوتیوب، تصریح کرده است که هرگونه کپی‌برداری غیرمجاز از محتوای منتشرشده در این پلتفرم، نقض شرایط خدمات یوتیوب به شمار می‌رود.

Sora 2 و آموزش تعاملی کاربران

اوپن‌ای‌آی در گام بعدی تصمیم گرفته است رویکردی متفاوت در پیش گیرد. در نسخه دوم این مدل، یعنی Sora 2، بستری مشابه یک شبکه اجتماعی طراحی شده است تا کاربران بتوانند ویدیوهای تولیدشده خود را با دیگران به اشتراک بگذارند.

کاربران قادر خواهند بود ویدیوهای شخصی خود را برای آموزش مدل آپلود کنند. این ویدیوها می‌توانند با رضایت کاربران، به‌عنوان داده‌های عمومی در دسترس سایر کاربران و شرکت OpenAI قرار گیرند.

هرچند این روش تا حدی از شدت نگرانی‌های مرتبط با حقوق مالکیت محتوا می‌کاهد، اما همچنان پرسش اصلی بی‌پاسخ مانده است:
مدل اولیه Sora دقیقاً بر پایه چه داده‌هایی آموزش دیده و نسخه دوم آن تا چه اندازه به همان منابع متکی بوده است؟