قام الخبراء في OpenAI بتدريب شبكة عصبية للعب Minecraft بمستوى عالٍ مثل اللاعبين البشريين.
تم تدريب الشبكة العصبية على 70000 ساعة من اللقطات المتنوعة داخل اللعبة، مع استكمالها بقاعدة بيانات صغيرة من مقاطع الفيديو التي يؤدي فيها المقاولون مهام محددة داخل اللعبة، مع تسجيل مدخلات لوحة المفاتيح والماوس أيضًا.
بعد الضبط الدقيق، وجدت شركة OpenAI أن النموذج كان قادرًا على أداء جميع أنواع المهارات المعقدة، من السباحة إلى صيد الحيوانات واستهلاك لحومها. كما استوعبت "قفزة العمود"، وهي حركة يضع فيها اللاعب كتلة من المواد أسفل نفسه في منتصف القفزة من أجل الحصول على ارتفاع.
ربما كان الأمر الأكثر إثارة للإعجاب، أن الذكاء الاصطناعي كان قادرًا على صنع أدوات ماسية (تتطلب سلسلة طويلة من الإجراءات ليتم تنفيذها بالتسلسل)، والتي وصفتها شركة OpenAI بأنها إنجاز "غير مسبوق" لعامل كمبيوتر.
تم تدريب الشبكة العصبية على 70000 ساعة من اللقطات المتنوعة داخل اللعبة، مع استكمالها بقاعدة بيانات صغيرة من مقاطع الفيديو التي يؤدي فيها المقاولون مهام محددة داخل اللعبة، مع تسجيل مدخلات لوحة المفاتيح والماوس أيضًا.
بعد الضبط الدقيق، وجدت شركة OpenAI أن النموذج كان قادرًا على أداء جميع أنواع المهارات المعقدة، من السباحة إلى صيد الحيوانات واستهلاك لحومها. كما استوعبت "قفزة العمود"، وهي حركة يضع فيها اللاعب كتلة من المواد أسفل نفسه في منتصف القفزة من أجل الحصول على ارتفاع.
ربما كان الأمر الأكثر إثارة للإعجاب، أن الذكاء الاصطناعي كان قادرًا على صنع أدوات ماسية (تتطلب سلسلة طويلة من الإجراءات ليتم تنفيذها بالتسلسل)، والتي وصفتها شركة OpenAI بأنها إنجاز "غير مسبوق" لعامل كمبيوتر.
طفرة في الذكاء الاصطناعي؟
تكمن أهمية مشروع Minecraft في أنه يوضح فعالية تقنية جديدة تم نشرها بواسطة OpenAI في تدريب نماذج الذكاء الاصطناعي- تسمى Video PreTraining (VPT)- والتي تقول الشركة إنها يمكن أن تسرع من تطوير "وكلاء استخدام الكمبيوتر العام".
من الناحية التاريخية، كانت صعوبة استخدام الفيديو الخام كمصدر لتدريب نماذج الذكاء الاصطناعي هي أن ما حدث بسيط بما يكفي لفهمه، ولكن ليس بالضرورة كيف. في الواقع، سوف يمتص نموذج الذكاء الاصطناعي النتائج المرجوة، لكن ليس لديه فهم لتركيبات المدخلات المطلوبة للوصول إليها.
مع VPT، مع ذلك، تقوم OpenAI بإقران مجموعة بيانات فيديو كبيرة تم سحبها من مصادر الويب العامة مع مجموعة من اللقطات المنسقة بعناية مع حركات لوحة المفاتيح والماوس ذات الصلة لإنشاء النموذج التأسيسي.
لضبط النموذج الأساسي، يقوم الفريق بعد ذلك بتوصيل مجموعات بيانات أصغر مصممة لتعليم مهام محددة. في هذا السياق، استخدمت OpenAI لقطات للاعبين الذين يؤدون حركات اللعبة المبكرة، مثل قطع الأشجار وبناء طاولات التصنيع، والتي قيل إنها أدت إلى "تحسين هائل" في الموثوقية التي تمكن النموذج من أداء هذه المهام.
تتضمن تقنية أخرى "مكافأة" نموذج الذكاء الاصطناعي على تحقيق كل خطوة في سلسلة من المهام، وهي ممارسة تُعرف باسم التعلم المعزز. هذه العملية هي التي سمحت للشبكة العصبية بجمع جميع مكونات معول الماس بمعدل نجاح على مستوى الإنسان.
أوضحت OpenAI في منشور مدونة: "يمهد VPT الطريق نحو السماح للوكلاء بتعلم التصرف من خلال مشاهدة الأعداد الهائلة من مقاطع الفيديو على الإنترنت. مقارنةً بنمذجة الفيديو التوليدية أو الأساليب المتناقضة التي من شأنها أن تسفر فقط عن مقدمات تمثيلية، فإن VPT توفر إمكانية مثيرة لتعلم السلوكيات المسبقة على نطاق واسع بشكل مباشر في مجالات أكثر من مجرد اللغة".
"بينما نجرب فقط في Minecraft، فإن اللعبة مفتوحة للغاية والواجهة البشرية الأصلية (الماوس ولوحة المفاتيح) عامة جدًا، لذلك نعتقد أن نتائجنا تبشر بالخير بالنسبة للمجالات الأخرى المماثلة، على سبيل المثال استخدام الكمبيوتر".
لتحفيز المزيد من التجارب في الفضاء، دخلت OpenAI في شراكة مع مسابقة MineRL NeurIPS، حيث تبرعت ببيانات المقاول ورمز النموذج للمتسابقين الذين يحاولون استخدام الذكاء الاصطناعي لحل مهام Minecraft المعقدة. الجائزة الكبرى: 100،000 دولار.