
واشنگتن پست: OpenAI با ویدیوهای یوتیوب مدل Sora را آموزش داده است
روزنامه واشنگتن پست در گزارشی تحقیقی، جزئیات جدیدی را درباره دادههایی که شرکت OpenAI برای آموزش مدل تولید محتوای ویدیویی خود با نام Sora به کار برده، منتشر کرده است. این مدل که بهتازگی نسخه دوم آن معرفی شده، یکی از پیشرفتهترین دستاوردهای اخیر در حوزه هوش مصنوعی مولد محسوب میشود و توجه گستردهای را در سطح جهانی برانگیخته است.
کوین شاول، کارشناس گرافیک هوش مصنوعی در واشنگتن پست، اعلام کرده است که OpenAI احتمالاً از دادههای موجود در فضای آنلاین بدون کسب مجوز از صاحبان اصلی آنها استفاده کرده است.
این روزنامه در گزارش خود به اظهارات پیشین تیم بروکس، یکی از اعضای ارشد پروژه Sora در سال ۲۰۲۴ میلادی، اشاره میکند که گفته بود شرکت از تمامی دادههای در دسترس، بدون هیچگونه تغییر در ساختار اصلی آنها بهره برده است.
در مقابل، OpenAI اعلام کرده است که بهصورت کلی از دادهها و کلیپهای ویدیویی «دردسترس عموم» و مواردی که مجوز لازم برای استفاده از آنها موجود بوده، استفاده کرده است؛ اما منبع دقیق این کلیپها را مشخص نکرده است.
گزارش واشنگتن پست یادآور میشود که این رویکرد مشابه همان شیوهای است که OpenAI پیشتر برای آموزش مدل ChatGPT به کار گرفته بود؛ روشی که بر پایه گردآوری گسترده دادهها از منابع متنوع آنلاین استوار بود.
بازسازی ویدیوهای واقعی با دقت بالا
این گزارش شامل یک آزمایش عملی نیز بود که توسط تیم این روزنامه انجام شد. در این آزمایش، تلاش شد تا صدها کلیپ ویدیویی برگرفته از فیلمها، سریالهای تلویزیونی و ویدیوهای محبوب یوتیوب بازسازی شوند.
تیم تحقیقاتی موفق شد با استفاده از منابع شناختهشده، کلیپهایی مشابه صحنههایی از سریال پرطرفدار (Wednesday) تولید کند و همچنین لوگوهایی از شرکتهای مطرحی مانند برادران وارنر و دریمورکس بسازد.
توانایی مدل حتی به تولید ویدیوهایی مشابه بازیهای ویدیویی محبوبی چون ماینکرفت و بازسازی شخصیتهای کارتونی شناختهشده نیز گسترش یافته است؛ محتوایی که بهوفور در یوتیوب یافت میشود.

علاوه بر این، Sora قادر بوده است ویدیوهایی با واترمارک و نشان شبکههای خبری بینالمللی از جمله NBA و همچنین کلیپهایی مشابه محتوای تیکتاک تولید کند.
در بخشی از گزارش آمده است که این مدل حتی توانسته رقصهای محبوب تیکتاک را با دقتی بسیار بالا بازسازی کند؛ موضوعی که نشان میدهد دادههای آموزشی آن شامل ویدیوهای منتشرشده در این پلتفرم نیز بوده است.
وابستگی Sora 2 به پلتفرمهای ویدیویی
با معرفی نسخه دوم این مدل، یعنی Sora 2، که اکنون قادر به تولید صدا از روی کلیپهای ویدیویی است، مشخص شد که OpenAI برای توسعه این مدل به میزان قابلتوجهی به دادههای موجود در پلتفرمهای پخش ویدیو متکی بوده است.
در هفتههای اخیر، ویدیوهایی در فضای مجازی منتشر شده که در آنها چهرههای مشهور جهان در حال بیان جملاتی غیرواقعی دیده میشوند، اما صدای تولیدشده بهطرز چشمگیری مشابه صدای واقعی آنان است.
گزارش واشنگتن پست تأکید میکند که نتفلیکس (Netflix) و توییچ (Twitch) هیچیک مجوز استفاده از محتوای خود را برای آموزش مدلهای OpenAI صادر نکردهاند.
وابستگی ۷۰ درصدی مدلها به دادههای یوتیوب
جوآنا ماترزینسکا، پژوهشگر دکتری در دانشگاه MIT و از متخصصان حوزه داده در مدلهای هوش مصنوعی، در مطالعهای که سال گذشته انجام داد، نشان داد که حدود ۷۰ درصد از کتابخانههای داده مورد استفاده برای آموزش این مدلها از یوتیوب استخراج میشوند؛ موضوعی که مستقیماً با سیاستهای استفاده از محتوای این پلتفرم در تضاد است.
این مسئله صرفاً محدود به OpenAI نیست؛ گزارش مذکور به شرکت انویدیا (Nvidia) و مدل Runway نیز اشاره میکند که برای آموزش نسخه نهایی خود از ویدیوهای یوتیوب بهره گرفته است. اما انویدیا بر پایبندی به حقوق تولیدکنندگان محتوا و رعایت سیاستهای پلتفرمها تأکید دارد.
گوگل نیز در یکی از پستهای رسمی خود اعلام کرده بود که از ویدیوهای یوتیوب برای آموزش مدلهای هوش مصنوعی خود استفاده میکند، اما این کار را با رعایت کامل مقررات و سیاستهای پلتفرم انجام میدهد.
در همین راستا، جک مالون، سخنگوی رسمی یوتیوب، تصریح کرده است که هرگونه کپیبرداری غیرمجاز از محتوای منتشرشده در این پلتفرم، نقض شرایط خدمات یوتیوب به شمار میرود.

Sora 2 و آموزش تعاملی کاربران
اوپنایآی در گام بعدی تصمیم گرفته است رویکردی متفاوت در پیش گیرد. در نسخه دوم این مدل، یعنی Sora 2، بستری مشابه یک شبکه اجتماعی طراحی شده است تا کاربران بتوانند ویدیوهای تولیدشده خود را با دیگران به اشتراک بگذارند.
کاربران قادر خواهند بود ویدیوهای شخصی خود را برای آموزش مدل آپلود کنند. این ویدیوها میتوانند با رضایت کاربران، بهعنوان دادههای عمومی در دسترس سایر کاربران و شرکت OpenAI قرار گیرند.
هرچند این روش تا حدی از شدت نگرانیهای مرتبط با حقوق مالکیت محتوا میکاهد، اما همچنان پرسش اصلی بیپاسخ مانده است:
مدل اولیه Sora دقیقاً بر پایه چه دادههایی آموزش دیده و نسخه دوم آن تا چه اندازه به همان منابع متکی بوده است؟
*