DeepMind، مختبر الذكاء الاصطناعي المدعوم من Alphabet شركة الأم لـ Google، استثمر منذ فترة طويلة في أنظمة الذكاء الاصطناعي للعب الألعاب. إنها فلسفة المعمل القائلة بأن الألعاب، رغم افتقارها إلى تطبيق تجاري واضح، تمثل تحديات ذات صلة فريدة بالقدرات المعرفية والاستدلالية. هذا يجعلها معايير مفيدة لتقدم الذكاء الاصطناعي. في العقود الأخيرة، أدت الألعاب إلى ظهور نوع من الذكاء الاصطناعي للتعلم الذاتي والذي يدعم رؤية الكمبيوتر والسيارات ذاتية القيادة ومعالجة اللغة الطبيعية.
في استمرار لعملها، أنشأت DeepMind نظامًا يسمى Player of Games، والذي كشفت عنه الشركة لأول مرة في ورقة بحثية نُشرت على خادم ما قبل الطباعة Arxiv.org هذا الأسبوع. على عكس أنظمة لعب الألعاب الأخرى التي طورتها DeepMind سابقًا، مثل AlphaZero الحائز على الشطرنج و StarCraft II الحائز على جائزة AlphaStar، يمكن أن يؤدي Player of Games أداءً جيدًا في كل من ألعاب المعلومات المثالية (على سبيل المثال، لعبة اللوحة الصينية Go and chess) بالإضافة إلى عدم الكمال ألعاب المعلومات (على سبيل المثال، لعبة البوكر).
تتضمن المهام مثل تخطيط المسار حول الازدحام ومفاوضات العقود وحتى التفاعل مع العملاء جميعًا حل وسط والنظر في كيفية توافق تفضيلات الأشخاص وتعارضها، كما هو الحال في الألعاب. حتى عندما تكون أنظمة الذكاء الاصطناعي مهتمة بأنفسها، فقد تكسب من خلال التنسيق والتعاون والتفاعل بين مجموعات من الأشخاص أو المنظمات. إذن، يمكن لأنظمة مثل Player of Games، التي يمكنها التفكير في أهداف الآخرين ودوافعهم، أن تمهد الطريق للذكاء الاصطناعي الذي يمكنه العمل بنجاح مع الآخرين - بما في ذلك التعامل مع الأسئلة التي تنشأ حول الحفاظ على الثقة.
ناقص مقابل مثالي Imperfect versus perfect
تحتوي ألعاب المعلومات غير الكاملة على معلومات مخفية عن اللاعبين أثناء اللعبة. على النقيض من ذلك، تُظهر ألعاب المعلومات المثالية جميع المعلومات في البداية.
تتطلب ألعاب المعلومات المثالية قدرًا لائقًا من التفكير والتخطيط للعب بشكل جيد. يتعين على اللاعبين معالجة ما يرونه على اللوحة وتحديد ما من المرجح أن يفعله خصومهم أثناء العمل نحو الهدف النهائي المتمثل في الفوز. من ناحية أخرى، تتطلب ألعاب المعلومات غير الكاملة من اللاعبين مراعاة المعلومات المخفية ومعرفة كيفية التصرف بعد ذلك من أجل الفوز - بما في ذلك الخداع المحتمل أو تكوين فريق ضد خصم.
تتفوق أنظمة مثل AlphaZero في ألعاب المعلومات المثالية مثل الشطرنج، بينما تؤدي الخوارزميات مثل DeepStack و Libratus أداءً جيدًا بشكل ملحوظ في ألعاب المعلومات غير الكاملة مثل البوكر. لكن DeepMind تدعي أن Player of Games هو أول "خوارزمية بحث عامة وسليمة" تحقق أداءً قويًا عبر كل من ألعاب المعلومات المثالية وغير الكاملة.
قال Martin Schmid، كبير الباحثين في DeepMind، أحد مؤسسي Player of Games، لموقع VentureBeat عبر البريد الإلكتروني: "يتعلم [Player of Games] أن يلعب [الألعاب] من البداية، ببساطة عن طريق اللعب المتكرر للعبة في اللعب الذاتي". "هذه خطوة نحو التعميم - يمكن لـ Player of Games لعب ألعاب معلومات مثالية وغير كاملة، مع التخلص من بعض القوة في الأداء. AlphaZero أقوى من Player of Games في ألعاب المعلومات المثالية، لكنها ليست مصممة لألعاب المعلومات غير الكاملة".
على الرغم من أن Player of Games قابلة للتعميم بشكل كبير، إلا أنها لا تستطيع لعب أي لعبة. يقول Schmid إن النظام يحتاج إلى التفكير في جميع وجهات النظر الممكنة لكل لاعب في حالة وجوده داخل اللعبة. بينما لا يوجد سوى منظور واحد في ألعاب المعلومات المثالية، يمكن أن يكون هناك العديد من وجهات النظر المماثلة في ألعاب المعلومات غير الكاملة - على سبيل المثال، حوالي 2000 لعبة البوكر. علاوة على ذلك، على عكس MuZero، خليفة DeepMind لـ AlphaZero، يحتاج Player of Games أيضًا إلى معرفة قواعد اللعبة التي يلعبها. يمكن لـ MuZero أن يلتقط قواعد ألعاب المعلومات المثالية أثناء التنقل.
في بحثها، قيمت DeepMind برنامج Player of Games - الذي تم تدريبه باستخدام شرائح تسريع TPUv4 من Google - على Chess و Go و Texas Hold’Em ولعبة اللوحة الإستراتيجية Scotland Yard. بالنسبة إلى Go، أقامت بطولة من 200 لعبة بين AlphaZero و Player of Games، بينما بالنسبة للـ Chess، حرض DeepMind برنامج Player of Games ضد الأنظمة عالية الأداء بما في ذلك GnuGo و Pachi و Stockfish بالإضافة إلى AlphaZero. تم لعب مباراة Texas Hold’Em الخاصة بـ Player of Games باستخدام Slumbot المتاحة علنًا، ولعبت الخوارزمية لعبة Scotland Yard ضد روبوت طوره Joseph Antonius Maria Nijssen والذي أطلق عليه مؤلفو DeepMind لقب "PimBot".
في استمرار لعملها، أنشأت DeepMind نظامًا يسمى Player of Games، والذي كشفت عنه الشركة لأول مرة في ورقة بحثية نُشرت على خادم ما قبل الطباعة Arxiv.org هذا الأسبوع. على عكس أنظمة لعب الألعاب الأخرى التي طورتها DeepMind سابقًا، مثل AlphaZero الحائز على الشطرنج و StarCraft II الحائز على جائزة AlphaStar، يمكن أن يؤدي Player of Games أداءً جيدًا في كل من ألعاب المعلومات المثالية (على سبيل المثال، لعبة اللوحة الصينية Go and chess) بالإضافة إلى عدم الكمال ألعاب المعلومات (على سبيل المثال، لعبة البوكر).
تتضمن المهام مثل تخطيط المسار حول الازدحام ومفاوضات العقود وحتى التفاعل مع العملاء جميعًا حل وسط والنظر في كيفية توافق تفضيلات الأشخاص وتعارضها، كما هو الحال في الألعاب. حتى عندما تكون أنظمة الذكاء الاصطناعي مهتمة بأنفسها، فقد تكسب من خلال التنسيق والتعاون والتفاعل بين مجموعات من الأشخاص أو المنظمات. إذن، يمكن لأنظمة مثل Player of Games، التي يمكنها التفكير في أهداف الآخرين ودوافعهم، أن تمهد الطريق للذكاء الاصطناعي الذي يمكنه العمل بنجاح مع الآخرين - بما في ذلك التعامل مع الأسئلة التي تنشأ حول الحفاظ على الثقة.
ناقص مقابل مثالي Imperfect versus perfect
تحتوي ألعاب المعلومات غير الكاملة على معلومات مخفية عن اللاعبين أثناء اللعبة. على النقيض من ذلك، تُظهر ألعاب المعلومات المثالية جميع المعلومات في البداية.
تتطلب ألعاب المعلومات المثالية قدرًا لائقًا من التفكير والتخطيط للعب بشكل جيد. يتعين على اللاعبين معالجة ما يرونه على اللوحة وتحديد ما من المرجح أن يفعله خصومهم أثناء العمل نحو الهدف النهائي المتمثل في الفوز. من ناحية أخرى، تتطلب ألعاب المعلومات غير الكاملة من اللاعبين مراعاة المعلومات المخفية ومعرفة كيفية التصرف بعد ذلك من أجل الفوز - بما في ذلك الخداع المحتمل أو تكوين فريق ضد خصم.
تتفوق أنظمة مثل AlphaZero في ألعاب المعلومات المثالية مثل الشطرنج، بينما تؤدي الخوارزميات مثل DeepStack و Libratus أداءً جيدًا بشكل ملحوظ في ألعاب المعلومات غير الكاملة مثل البوكر. لكن DeepMind تدعي أن Player of Games هو أول "خوارزمية بحث عامة وسليمة" تحقق أداءً قويًا عبر كل من ألعاب المعلومات المثالية وغير الكاملة.
قال Martin Schmid، كبير الباحثين في DeepMind، أحد مؤسسي Player of Games، لموقع VentureBeat عبر البريد الإلكتروني: "يتعلم [Player of Games] أن يلعب [الألعاب] من البداية، ببساطة عن طريق اللعب المتكرر للعبة في اللعب الذاتي". "هذه خطوة نحو التعميم - يمكن لـ Player of Games لعب ألعاب معلومات مثالية وغير كاملة، مع التخلص من بعض القوة في الأداء. AlphaZero أقوى من Player of Games في ألعاب المعلومات المثالية، لكنها ليست مصممة لألعاب المعلومات غير الكاملة".
على الرغم من أن Player of Games قابلة للتعميم بشكل كبير، إلا أنها لا تستطيع لعب أي لعبة. يقول Schmid إن النظام يحتاج إلى التفكير في جميع وجهات النظر الممكنة لكل لاعب في حالة وجوده داخل اللعبة. بينما لا يوجد سوى منظور واحد في ألعاب المعلومات المثالية، يمكن أن يكون هناك العديد من وجهات النظر المماثلة في ألعاب المعلومات غير الكاملة - على سبيل المثال، حوالي 2000 لعبة البوكر. علاوة على ذلك، على عكس MuZero، خليفة DeepMind لـ AlphaZero، يحتاج Player of Games أيضًا إلى معرفة قواعد اللعبة التي يلعبها. يمكن لـ MuZero أن يلتقط قواعد ألعاب المعلومات المثالية أثناء التنقل.
في بحثها، قيمت DeepMind برنامج Player of Games - الذي تم تدريبه باستخدام شرائح تسريع TPUv4 من Google - على Chess و Go و Texas Hold’Em ولعبة اللوحة الإستراتيجية Scotland Yard. بالنسبة إلى Go، أقامت بطولة من 200 لعبة بين AlphaZero و Player of Games، بينما بالنسبة للـ Chess، حرض DeepMind برنامج Player of Games ضد الأنظمة عالية الأداء بما في ذلك GnuGo و Pachi و Stockfish بالإضافة إلى AlphaZero. تم لعب مباراة Texas Hold’Em الخاصة بـ Player of Games باستخدام Slumbot المتاحة علنًا، ولعبت الخوارزمية لعبة Scotland Yard ضد روبوت طوره Joseph Antonius Maria Nijssen والذي أطلق عليه مؤلفو DeepMind لقب "PimBot".
في لعبة الشطرنج والانطلاق، أثبت Player of Games أنه أقوى من Stockfish و Pachi في تكوينات معينة - ولكن ليس كلها - وفاز بنسبة 0.5% من ألعابه ضد أقوى وكيل AlphaZero. على الرغم من الخسائر الفادحة ضد AlphaZero، يعتقد DeepMind أن Player of Games كان يؤدي على مستوى "أفضل هواة بشريين"، وربما حتى على المستوى الاحترافي.
كان Player of Games لاعب بوكر أفضل ولاعب سكوتلاند يارد. ضد Slumbot، فازت الخوارزمية في المتوسط بـ 7 ملي من الرهان المبدئي الكبير لكل يد (ميجابايت / يد)، حيث mbb / يد هو متوسط عدد الرهانات المبدئية الكبيرة التي يتم الفوز بها لكل 1000 توزيع ورق. (الرهان المبدئي الكبير يساوي الحد الأدنى للرهان.) في غضون ذلك، في سكوتلاند يارد، أفاد موقع DeepMind أن Player of Games فاز "بشكل كبير" ضد PimBot، حتى عندما تم منح PimBot المزيد من الفرص للبحث عن الحركات الفائزة.
العمل المستقبلي
يعتقد Schmid أن Player of Games هو خطوة كبيرة نحو أنظمة لعب عامة حقيقية- ولكن بعيدًا عن آخرها. كان الاتجاه العام في التجارب هو أن أداء الخوارزمية أفضل بالنظر إلى المزيد من الموارد الحسابية (تم تدريب Player of Games على مجموعة بيانات من 17 مليون خطوة أو إجراء لـ Scotland Yard وحدها)، ويتوقع Schmid أن هذا النهج سيتوسع في المدى المنظور مستقبل.
قال Schmid: "يتوقع One أن التطبيقات التي استفادت من AlphaZero قد تستفيد أيضًا من Player of Games". "جعل هذه الخوارزميات أكثر عمومية هو بحث مثير".
بطبيعة الحال، فإن الأساليب التي تفضل كميات هائلة من الحوسبة تضع المؤسسات ذات الموارد الأقل، مثل الشركات الناشئة والمؤسسات الأكاديمية، في وضع غير مؤات. أصبح هذا صحيحًا بشكل خاص في مجال اللغة، حيث حققت النماذج الضخمة مثل GPT-3 من OpenAI أداءً رائدًا ولكن بمتطلبات الموارد - غالبًا بملايين الدولارات - تتجاوز بكثير ميزانيات معظم مجموعات البحث.
ترتفع التكاليف أحيانًا عن ما يعتبر مقبولاً حتى في شركة ذات جيوب عميقة مثل DeepMind. بالنسبة إلى AlphaStar، لم يجرب باحثو الشركة عن قصد طرقًا متعددة لتصميم مكون رئيسي لأن تكلفة التدريب كانت ستكون عالية جدًا في أذهان المديرين التنفيذيين. حققت DeepMind أرباحها الأولى في العام الماضي فقط، عندما جنت 826 مليون جنيه إسترليني (1.13 مليار دولار) في الإيرادات. في العام السابق، سجلت DeepMind خسائر بقيمة 572 مليون دولار واستحوذت على ديون بقيمة مليار دولار.
تشير التوقعات إلى أن تدريب AlphaZero كلف عشرات الملايين من الدولارات. لم تكشف DeepMind عن ميزانية البحث الخاصة بـ Player of Games، ولكن ليس من المحتمل أن تكون منخفضة بالنظر إلى عدد خطوات التدريب لكل لعبة تتراوح بين مئات الآلاف إلى الملايين.
نظرًا لأن البحث ينتقل في النهاية من الألعاب إلى المجالات التجارية الأخرى، مثل توصيات التطبيق، وتحسين تبريد مركز البيانات، والتنبؤ بالطقس، ونمذجة المواد، والرياضيات، والرعاية الصحية، وحساب الطاقة الذرية، فمن المرجح أن تصبح تأثيرات عدم المساواة أكثر وضوحًا. يتأمل Schmid وزملاؤه المؤلفون المشاركون في الورقة البحثية: "السؤال المثير للاهتمام هو ما إذا كان هذا المستوى من اللعب يمكن تحقيقه بموارد حسابية أقل".
كان Player of Games لاعب بوكر أفضل ولاعب سكوتلاند يارد. ضد Slumbot، فازت الخوارزمية في المتوسط بـ 7 ملي من الرهان المبدئي الكبير لكل يد (ميجابايت / يد)، حيث mbb / يد هو متوسط عدد الرهانات المبدئية الكبيرة التي يتم الفوز بها لكل 1000 توزيع ورق. (الرهان المبدئي الكبير يساوي الحد الأدنى للرهان.) في غضون ذلك، في سكوتلاند يارد، أفاد موقع DeepMind أن Player of Games فاز "بشكل كبير" ضد PimBot، حتى عندما تم منح PimBot المزيد من الفرص للبحث عن الحركات الفائزة.
العمل المستقبلي
يعتقد Schmid أن Player of Games هو خطوة كبيرة نحو أنظمة لعب عامة حقيقية- ولكن بعيدًا عن آخرها. كان الاتجاه العام في التجارب هو أن أداء الخوارزمية أفضل بالنظر إلى المزيد من الموارد الحسابية (تم تدريب Player of Games على مجموعة بيانات من 17 مليون خطوة أو إجراء لـ Scotland Yard وحدها)، ويتوقع Schmid أن هذا النهج سيتوسع في المدى المنظور مستقبل.
قال Schmid: "يتوقع One أن التطبيقات التي استفادت من AlphaZero قد تستفيد أيضًا من Player of Games". "جعل هذه الخوارزميات أكثر عمومية هو بحث مثير".
بطبيعة الحال، فإن الأساليب التي تفضل كميات هائلة من الحوسبة تضع المؤسسات ذات الموارد الأقل، مثل الشركات الناشئة والمؤسسات الأكاديمية، في وضع غير مؤات. أصبح هذا صحيحًا بشكل خاص في مجال اللغة، حيث حققت النماذج الضخمة مثل GPT-3 من OpenAI أداءً رائدًا ولكن بمتطلبات الموارد - غالبًا بملايين الدولارات - تتجاوز بكثير ميزانيات معظم مجموعات البحث.
ترتفع التكاليف أحيانًا عن ما يعتبر مقبولاً حتى في شركة ذات جيوب عميقة مثل DeepMind. بالنسبة إلى AlphaStar، لم يجرب باحثو الشركة عن قصد طرقًا متعددة لتصميم مكون رئيسي لأن تكلفة التدريب كانت ستكون عالية جدًا في أذهان المديرين التنفيذيين. حققت DeepMind أرباحها الأولى في العام الماضي فقط، عندما جنت 826 مليون جنيه إسترليني (1.13 مليار دولار) في الإيرادات. في العام السابق، سجلت DeepMind خسائر بقيمة 572 مليون دولار واستحوذت على ديون بقيمة مليار دولار.
تشير التوقعات إلى أن تدريب AlphaZero كلف عشرات الملايين من الدولارات. لم تكشف DeepMind عن ميزانية البحث الخاصة بـ Player of Games، ولكن ليس من المحتمل أن تكون منخفضة بالنظر إلى عدد خطوات التدريب لكل لعبة تتراوح بين مئات الآلاف إلى الملايين.
نظرًا لأن البحث ينتقل في النهاية من الألعاب إلى المجالات التجارية الأخرى، مثل توصيات التطبيق، وتحسين تبريد مركز البيانات، والتنبؤ بالطقس، ونمذجة المواد، والرياضيات، والرعاية الصحية، وحساب الطاقة الذرية، فمن المرجح أن تصبح تأثيرات عدم المساواة أكثر وضوحًا. يتأمل Schmid وزملاؤه المؤلفون المشاركون في الورقة البحثية: "السؤال المثير للاهتمام هو ما إذا كان هذا المستوى من اللعب يمكن تحقيقه بموارد حسابية أقل".