الأخبار

برنامج Tutel من Microsoft يعمل على تحسين تدريب نموذج الذكاء الاصطناعي

أعلنت Microsoft هذا الأسبوع عن Tutel، وهي مكتبة لدعم تطوير مزيج من نماذج الخبراء (MoE) Mixture of Experts- وهو نوع معين من نماذج الذكاء الاصطناعي واسعة النطاق. أوضح بيان صادر عن Microsoft أن برنامج Tutel مفتوح المصدر وتم دمجه في Fairseq، وهي إحدى مجموعات أدوات Facebook في PyTorch، وهو مصمم لتمكين المطورين عبر تخصصات الذكاء الاصطناعي من "تنفيذ MoE بسهولة وكفاءة أكبر".

تتكون MoE من مجموعات صغيرة من "الخلايا العصبية Neurons" التي لا تنشط إلا في ظل ظروف خاصة ومحددة. "الطبقات Layers" السفلية من سمات مستخلص نموذج MoE مدعوة إلى الخبراء لتقييم تلك السمات. على سبيل المثال، يمكن استخدام MoEs لإنشاء نظام ترجمة، مع تعلم كل مجموعة خبراء للتعامل مع جزء منفصل من الكلام أو قاعدة نحوية خاصة.

مقارنة بالبنيات النموذجية الأخرى، تتمتع MoEs بمزايا واضحة. يمكنهم الاستجابة للظروف من خلال التخصص، مما يسمح للنموذج بعرض نطاق أكبر من السلوكيات. يمكن للخبراء تلقي مزيج من البيانات، وعندما يكون النموذج قيد التشغيل، لا ينشط سوى عدد قليل من الخبراء- حتى النموذج الضخم يحتاج فقط إلى قدر ضئيل من قوة المعالجة.

في الواقع، تعد MoE أحد الأساليب القليلة التي تم إثباتها لتتسع لأكثر من تريليون معامل Parameters، مما يمهد الطريق لنماذج قادرة على تعزيز رؤية الكمبيوتر، والتعرف على الكلام، ومعالجة اللغة الطبيعية، وأنظمة الترجمة الآلية، من بين أمور أخرى. في التعلم الآلي، تعد المعاملات Parameters جزءًا من النموذج الذي تم تعلمه من بيانات التدريب السابقة. بشكل عام، لا سيما في مجال اللغة، فإن العلاقة بين عدد المعاملات والتطور قد صمدت بشكل جيد.

يركز Tutel بشكل أساسي على تحسينات الحسابات الخاصة بـ MoE. على وجه الخصوص، تم تحسين المكتبة لمثيلات سلسلة Azure NDm A100 v4 الجديدة من Microsoft، والتي توفر مقياسًا منزلقًا لوحدات معالجة الرسومات Nvidia A100. تقول Microsoft إن لدى Tutel واجهة "موجزة" تهدف إلى تسهيل الاندماج في حلول MoE الأخرى. بدلاً من ذلك، يمكن للمطورين استخدام واجهة Tutel لدمج طبقات MoE المستقلة في نماذج DNN الخاصة بهم من البداية.

"بسبب الافتقار إلى عمليات التنفيذ الفعالة، تعتمد النماذج المستندة إلى MoE على مزيج ساذج من العديد من المشغلين الجاهزين الذين توفرهم أطر التعلم العميق مثل PyTorch و TensorFlow لتكوين حساب MoE. وكتبت Microsoft في منشور مدونة: "يوفر المشغلون نموذجًا بمجموعة بيانات معروفة تتضمن المدخلات والمخرجات المرغوبة". "يصمم Tutel وينفذ العديد من نوى GPU المحسنة للغاية لتزويد المشغلين بالحسابات الخاصة بـ MoE".

Tutel متاح في المصدر المفتوح على GitHub. تقول Microsoft أن فريق تطوير Tutel "سيعمل بنشاط" على دمج خوارزميات وزارة التربية الناشئة المختلفة من المجتمع في الإصدارات المستقبلية.

أضافت Microsoft أيضا: "MoE هي تقنية واعدة. إنه يتيح تدريبًا شاملاً استنادًا إلى تقنيات من العديد من المجالات، مثل التوجيه المنهجي وموازنة الشبكة مع العقد الضخمة، ويمكنه أيضًا الاستفادة من التسريع المستند إلى وحدة معالجة الرسومات. لقد أظهرنا تنفيذ MoE الفعال وTutel، والذي أدى إلى مكاسب كبيرة على إطار عمل معرض Fairseq. تم دمج Tutel مع إطار عمل DeepSpeed ​​الخاص بنا أيضًا، ونعتقد أن Tutel والتكاملات ذات الصلة ستفيد خدمات Azure، خاصة لأولئك الذين يرغبون في توسيع نطاق نماذجهم الكبيرة بكفاءة".