توصل تحقيق جديد أجرته Proof News إلى أن بعض أكبر شركات التكنولوجيا في العالم قامت بتدريب نماذج الذكاء الاصطناعي الخاصة بها على مجموعة بيانات تضمنت نصوصًا لأكثر من 173000 مقطع فيديو على YouTube دون إذن. تحتوي مجموعة البيانات، التي أنشأتها شركة غير ربحية تدعى EleutherAI، على نصوص من مقاطع فيديو YouTube من أكثر من 48000 قناة واستخدمتها Apple وNVIDIA وAnthropic من بين شركات أخرى. تسلط نتائج التحقيق الضوء على الحقيقة غير المريحة للذكاء الاصطناعي: وهي أن التكنولوجيا مبنية إلى حد كبير على ظهور البيانات التي تم سحبها من المبدعين دون موافقتهم أو تعويضهم.
لا تتضمن مجموعة البيانات أي مقاطع فيديو أو صور من YouTube، ولكنها تحتوي على نصوص فيديو من أكبر منشئي المنصة بما في ذلك Marques Brownlee وMrBeast، بالإضافة إلى ناشري الأخبار الكبار مثل The New York Times، وBBC، وABC News.
نشر براونلي على موقع X: "لقد حصلت شركة Apple على بيانات الذكاء الاصطناعي الخاص بها من عدة شركات". وأضاف: "قامت إحدى هذه الشركات باستخلاص الكثير من البيانات/النصوص من مقاطع الفيديو على موقع YouTube، بما في ذلك مقاطع الفيديو الخاصة بي". "ستكون هذه مشكلة متطورة لفترة طويلة".
صرح متحدث باسم Google أن التعليقات السابقة التي أدلى بها الرئيس التنفيذي لشركة YouTube، نيل موهان، والتي قال فيها إن الشركات التي تستخدم بيانات YouTube لتدريب نماذج الذكاء الاصطناعي ستنتهك شروط وخدمة المنصة لا تزال قائمة.
حتى الآن، لم تكن شركات الذكاء الاصطناعي شفافة بشأن البيانات المستخدمة لتدريب نماذجها. في وقت سابق من هذا الشهر، انتقد الفنانون والمصورون شركة آبل لفشلها في الكشف عن مصدر بيانات التدريب الخاصة بشركة Apple Intelligence، وهي الشركة التي تدور حول الذكاء الاصطناعي التوليدي القادم إلى ملايين أجهزة Apple هذا العام.
يُعد موقع YouTube، وهو أكبر مستودع لمقاطع الفيديو في العالم، على وجه الخصوص، منجم ذهب ليس فقط للنصوص الصوتية ولكن أيضًا للصوت والفيديو والصور، مما يجعله مجموعة بيانات جذابة لتدريب نماذج الذكاء الاصطناعي. في وقت سابق من هذا العام، تهربت ميرا موراتي، كبيرة مسؤولي التكنولوجيا في OpenAI، من أسئلة صحيفة وول ستريت جورنال حول ما إذا كانت الشركة تستخدم مقاطع فيديو YouTube لتدريب Sora، أداة توليد الفيديو المرتقبة باستخدام الذكاء الاصطناعي في OpenAI. وقال موراتي في ذلك الوقت: "لن أخوض في تفاصيل البيانات التي تم استخدامها، لكنها كانت متاحة للعامة أو بيانات مرخصة". قال الرئيس التنفيذي لشركة Alphabet، ساندر بيتشاي، أيضًا إن الشركات التي تستخدم البيانات من YouTube لتدريب نماذج الذكاء الاصطناعي الخاصة بها ستنتهك شروط خدمة النظام الأساسي.
إذا كنت تريد معرفة ما إذا كانت الترجمات من مقاطع الفيديو الخاصة بك على YouTube أو من قنواتك المفضلة جزءًا من مجموعة البيانات، فتوجه إلى أداة البحث في Proof News.
لا تتضمن مجموعة البيانات أي مقاطع فيديو أو صور من YouTube، ولكنها تحتوي على نصوص فيديو من أكبر منشئي المنصة بما في ذلك Marques Brownlee وMrBeast، بالإضافة إلى ناشري الأخبار الكبار مثل The New York Times، وBBC، وABC News.
نشر براونلي على موقع X: "لقد حصلت شركة Apple على بيانات الذكاء الاصطناعي الخاص بها من عدة شركات". وأضاف: "قامت إحدى هذه الشركات باستخلاص الكثير من البيانات/النصوص من مقاطع الفيديو على موقع YouTube، بما في ذلك مقاطع الفيديو الخاصة بي". "ستكون هذه مشكلة متطورة لفترة طويلة".
صرح متحدث باسم Google أن التعليقات السابقة التي أدلى بها الرئيس التنفيذي لشركة YouTube، نيل موهان، والتي قال فيها إن الشركات التي تستخدم بيانات YouTube لتدريب نماذج الذكاء الاصطناعي ستنتهك شروط وخدمة المنصة لا تزال قائمة.
حتى الآن، لم تكن شركات الذكاء الاصطناعي شفافة بشأن البيانات المستخدمة لتدريب نماذجها. في وقت سابق من هذا الشهر، انتقد الفنانون والمصورون شركة آبل لفشلها في الكشف عن مصدر بيانات التدريب الخاصة بشركة Apple Intelligence، وهي الشركة التي تدور حول الذكاء الاصطناعي التوليدي القادم إلى ملايين أجهزة Apple هذا العام.
يُعد موقع YouTube، وهو أكبر مستودع لمقاطع الفيديو في العالم، على وجه الخصوص، منجم ذهب ليس فقط للنصوص الصوتية ولكن أيضًا للصوت والفيديو والصور، مما يجعله مجموعة بيانات جذابة لتدريب نماذج الذكاء الاصطناعي. في وقت سابق من هذا العام، تهربت ميرا موراتي، كبيرة مسؤولي التكنولوجيا في OpenAI، من أسئلة صحيفة وول ستريت جورنال حول ما إذا كانت الشركة تستخدم مقاطع فيديو YouTube لتدريب Sora، أداة توليد الفيديو المرتقبة باستخدام الذكاء الاصطناعي في OpenAI. وقال موراتي في ذلك الوقت: "لن أخوض في تفاصيل البيانات التي تم استخدامها، لكنها كانت متاحة للعامة أو بيانات مرخصة". قال الرئيس التنفيذي لشركة Alphabet، ساندر بيتشاي، أيضًا إن الشركات التي تستخدم البيانات من YouTube لتدريب نماذج الذكاء الاصطناعي الخاصة بها ستنتهك شروط خدمة النظام الأساسي.
إذا كنت تريد معرفة ما إذا كانت الترجمات من مقاطع الفيديو الخاصة بك على YouTube أو من قنواتك المفضلة جزءًا من مجموعة البيانات، فتوجه إلى أداة البحث في Proof News.