• :4,788
  • :11,929,645
واشنگتن پست: OpenAI با ویدیوهای یوتیوب مدل Sora را آموزش داده است

واشنگتن پست: OpenAI با ویدیوهای یوتیوب مدل Sora را آموزش داده است

تحقیقات تازه واشنگتن پست نشان می‌دهد که OpenAI در آموزش مدل تولید ویدیوی خود، Sora، از ویدیوهای منتشرشده در پلتفرم‌هایی مانند یوتیوب بهره برده است؛ آن‌هم بدون دریافت مجوز رسمی از صاحبان محتوا. این گزارش، بار دیگر بحث داغ استفاده غیراخلاقی از داده‌های عمومی در آموزش مدل‌های هوش مصنوعی را در سطح جهانی شعله‌ور کرده است.
روزنامه واشنگتن پست در گزارشی تحقیقی، جزئیات جدیدی را درباره داده‌هایی که شرکت OpenAI برای آموزش مدل تولید محتوای ویدیویی خود با نام Sora به کار برده، منتشر کرده است. این مدل که به‌تازگی نسخه دوم آن معرفی شده، یکی از پیشرفته‌ترین دستاوردهای اخیر در حوزه هوش مصنوعی مولد محسوب می‌شود و توجه گسترده‌ای را در سطح جهانی برانگیخته است.

کوین شاول، کارشناس گرافیک هوش مصنوعی در واشنگتن پست، اعلام کرده است که OpenAI احتمالاً از داده‌های موجود در فضای آنلاین بدون کسب مجوز از صاحبان اصلی آنها استفاده کرده است.

این روزنامه در گزارش خود به اظهارات پیشین تیم بروکس، یکی از اعضای ارشد پروژه Sora در سال ۲۰۲۴ میلادی، اشاره می‌کند که گفته بود شرکت از تمامی داده‌های در دسترس، بدون هیچ‌گونه تغییر در ساختار اصلی آن‌ها بهره برده است.

در مقابل، OpenAI اعلام کرده است که به‌صورت کلی از داده‌ها و کلیپ‌های ویدیویی «دردسترس عموم» و مواردی که مجوز لازم برای استفاده از آن‌ها موجود بوده، استفاده کرده است؛ اما منبع دقیق این کلیپ‌ها را مشخص نکرده است.

گزارش واشنگتن پست یادآور می‌شود که این رویکرد مشابه همان شیوه‌ای است که OpenAI پیش‌تر برای آموزش مدل ChatGPT به کار گرفته بود؛ روشی که بر پایه گردآوری گسترده داده‌ها از منابع متنوع آنلاین استوار بود.
 

بازسازی ویدیوهای واقعی با دقت بالا


این گزارش شامل یک آزمایش عملی نیز بود که توسط تیم این روزنامه انجام شد. در این آزمایش، تلاش شد تا صدها کلیپ ویدیویی برگرفته از فیلم‌ها، سریال‌های تلویزیونی و ویدیوهای محبوب یوتیوب بازسازی شوند.

تیم تحقیقاتی موفق شد با استفاده از منابع شناخته‌شده، کلیپ‌هایی مشابه صحنه‌هایی از سریال پرطرفدار (Wednesday) تولید کند و همچنین لوگوهایی از شرکت‌های مطرحی مانند برادران وارنر و دریم‌ورکس بسازد.

توانایی مدل حتی به تولید ویدیوهایی مشابه بازی‌های ویدیویی محبوبی چون ماینکرفت و بازسازی شخصیت‌های کارتونی شناخته‌شده نیز گسترش یافته است؛ محتوایی که به‌وفور در یوتیوب یافت می‌شود.

 


علاوه بر این، Sora قادر بوده است ویدیوهایی با واترمارک و نشان شبکه‌های خبری بین‌المللی از جمله NBA و همچنین کلیپ‌هایی مشابه محتوای تیک‌تاک تولید کند.

در بخشی از گزارش آمده است که این مدل حتی توانسته رقص‌های محبوب تیک‌تاک را با دقتی بسیار بالا بازسازی کند؛ موضوعی که نشان می‌دهد داده‌های آموزشی آن شامل ویدیوهای منتشرشده در این پلتفرم نیز بوده است.
 

وابستگی Sora 2 به پلتفرم‌های ویدیویی


با معرفی نسخه دوم این مدل، یعنی Sora 2، که اکنون قادر به تولید صدا از روی کلیپ‌های ویدیویی است، مشخص شد که OpenAI برای توسعه این مدل به میزان قابل‌توجهی به داده‌های موجود در پلتفرم‌های پخش ویدیو متکی بوده است.

در هفته‌های اخیر، ویدیوهایی در فضای مجازی منتشر شده که در آن‌ها چهره‌های مشهور جهان در حال بیان جملاتی غیرواقعی دیده می‌شوند، اما صدای تولیدشده به‌طرز چشمگیری مشابه صدای واقعی آنان است.

گزارش واشنگتن پست تأکید می‌کند که نتفلیکس (Netflix) و توییچ (Twitch) هیچ‌یک مجوز استفاده از محتوای خود را برای آموزش مدل‌های OpenAI صادر نکرده‌اند.
 

وابستگی ۷۰ درصدی مدل‌ها به داده‌های یوتیوب


جوآنا ماترزینسکا، پژوهشگر دکتری در دانشگاه MIT و از متخصصان حوزه داده در مدل‌های هوش مصنوعی، در مطالعه‌ای که سال گذشته انجام داد، نشان داد که حدود ۷۰ درصد از کتابخانه‌های داده مورد استفاده برای آموزش این مدل‌ها از یوتیوب استخراج می‌شوند؛ موضوعی که مستقیماً با سیاست‌های استفاده از محتوای این پلتفرم در تضاد است.

این مسئله صرفاً محدود به OpenAI نیست؛ گزارش مذکور به شرکت انویدیا (Nvidia) و مدل Runway نیز اشاره می‌کند که برای آموزش نسخه نهایی خود از ویدیوهای یوتیوب بهره گرفته است. اما انویدیا بر پایبندی به حقوق تولیدکنندگان محتوا و رعایت سیاست‌های پلتفرم‌ها تأکید دارد.

گوگل نیز در یکی از پست‌های رسمی خود اعلام کرده بود که از ویدیوهای یوتیوب برای آموزش مدل‌های هوش مصنوعی خود استفاده می‌کند، اما این کار را با رعایت کامل مقررات و سیاست‌های پلتفرم انجام می‌دهد.

در همین راستا، جک مالون، سخنگوی رسمی یوتیوب، تصریح کرده است که هرگونه کپی‌برداری غیرمجاز از محتوای منتشرشده در این پلتفرم، نقض شرایط خدمات یوتیوب به شمار می‌رود.

 
 

Sora 2 و آموزش تعاملی کاربران


اوپن‌ای‌آی در گام بعدی تصمیم گرفته است رویکردی متفاوت در پیش گیرد. در نسخه دوم این مدل، یعنی Sora 2، بستری مشابه یک شبکه اجتماعی طراحی شده است تا کاربران بتوانند ویدیوهای تولیدشده خود را با دیگران به اشتراک بگذارند.

کاربران قادر خواهند بود ویدیوهای شخصی خود را برای آموزش مدل آپلود کنند. این ویدیوها می‌توانند با رضایت کاربران، به‌عنوان داده‌های عمومی در دسترس سایر کاربران و شرکت OpenAI قرار گیرند.

هرچند این روش تا حدی از شدت نگرانی‌های مرتبط با حقوق مالکیت محتوا می‌کاهد، اما همچنان پرسش اصلی بی‌پاسخ مانده است:
مدل اولیه Sora دقیقاً بر پایه چه داده‌هایی آموزش دیده و نسخه دوم آن تا چه اندازه به همان منابع متکی بوده است؟

    *

    • هشدار به کاربران جیمیل پس از افشای ۱۸۳ میلیون پسورد

      به کاربران جیمیل درباره حمله سایبری هشدار داده شده که حدود ۱۸۳ میلیون حساب کاربری را ناامن کرده است.به کاربران جیمیل درباره حمله سایبری هشدار داده شده که حدود ۱۸۳ میلیون حساب کاربری را ناامن...

    • ۹۰ درصد بازی‌های ویندوزی روی لینوکس اجرا می‌شوند

      آیا لینوکس دیگر فقط برای توسعه‌دهندگان نیست؟ کشف کنید چگونه فناوری Proton و Steam Deck اجرای روان ۹۰% بازی‌های ویندوز روی لینوکس را ممکن کرده‌اند. با نگاهی به آینده، پیش‌بینی می‌کنیم که سال ...

    • راز طول عمر کنسول بازی شما؛ چند وقت یک‌بار باید تمیزش کنید؟

      آیا می‌دانید گرد و غبار چگونه می‌تواند به کنسول بازی شما آسیب بزند؟ در این مطلب، زمان مناسب برای تمیز کردن کنسول، روش‌های ایمن و اشتباهات خطرناک را بررسی کرده‌ایم. با رعایت چند نکته ساده، ع...

    • هوش مصنوعی سراغ صنعت گیمینگ می‌رود

      به‌زودی، دیگر فقط شخصیت‌های غیربازیکن (NPC) نیستند که با هوش مصنوعی کار می‌کنند و هوش مصنوعی در حال ورود به تقریبا تمام صنایع است و صنعت بازی‌سازی ممکن است قدم بعدی در این تحول بزرگ باشد.در ...

    با وجود سالها تجربه بر آن شدیم تا محصولی برای جمع آوری اخبار مهم از موضوع های مهم و مورد دغدغه بازدید کنندگان عزیز مهیا سازیم و همچنین ابزاری جهت اطلاع از آخرین قیمت بازارهای مالی نیز فراهم کرده ایم