الأخبار

شركة Facebook تقدم AI M2M-100: أول نموذج متعدد اللغات يترجم 100 لغة دون الاعتماد على البيانات الإنجليزية

تعتمد النماذج متعددة اللغات النموذجية التي تتمحور حول اللغة الإنجليزية والمستخدمة سابقًا للترجمات على الترجمة من خطوتين. هذا يفتقر إلى الحفاظ على المعنى الفعلي للجمل بسبب جسر البيانات الإنجليزية بين اللغتين. على سبيل المثال، ستتدرب النماذج السابقة على الصينية إلى الإنجليزية ومن الإنجليزية إلى الفرنسية، لأن بيانات التدريب الإنجليزية هي الأكثر توفرًا على نطاق واسع. هذا النموذج الجديد الذي قدمه Facebook AI يقوم بتدريب اللغة الصينية مباشرة على البيانات الفرنسية للحفاظ على المعنى بشكل أفضل.
 

يقدم Facebook AI أول نموذج ضخم للترجمة الآلية متعددة اللغات MMT يمكنه ترجمة 100 × 100 لغة في أي اتجاه دون الاعتماد على البيانات الإنجليزية. تم تدريب M2M-100 على حوالي 2200 اتجاه لغة ، وهو ما يزيد بمقدار 10 أضعاف عن النموذج السابق.
 

معالجة البيانات الكبيرة: استراتيجية الجسر والترجمة العكسية
كان إنشاء مجموعة بيانات MMT أكثر تنوعًا ممكنًا من خلال الجمع بين موارد استخراج البيانات التكميلية التي كانت سنوات في الإعداد، بما في ذلك ccAligned و ccMatrix و LASER. كما أنشأت أيضًا LASER 2.0 جديدًا وتحسّنًا سريعًا لتعريف لغة النص، مع تحسين جودة المعالجة، بما في ذلك التدريب مفتوح المصدر وبرامج التقييم.

لكن هذا لا يمكن أن يساعد كثيرًا في عبور البيانات لزوج عشوائي من 100 لغة مختلفة. لذلك، تم تطوير استراتيجيات معينة على النحو الوارد أدناه:

يعطي النموذج الأولوية للغات التي تحتوي على معظم طلبات الترجمة واتجاهات المعالجة بأعلى جودة وأكبر كمية من البيانات، مع تجنب الترجمات النادرة إحصائيًا مثل الأيسلندية-النيبالية أو السنهالية-الجاوية.
ثم يتم تقسيم 14 مجموعة لغوية على أساس التشابه الجغرافي والثقافي واللغوي. على سبيل المثال، تتضمن إحدى المجموعات البنغالية والهندية والماراثية والنيبالية والتاميلية والأردية، حيث يتم التحدث بها في الهند ولديها احتمالية أكبر في الترجمة.
علاوة على ذلك، لربط لغات المجموعات المختلفة، يتم تحديد عدد صغير من لغات الجسر ، مثل مجموعة من اللغات الهندية والبنغالية والتاميلية للغات الهندية الآرية. وبعد ذلك، يتم استخراج بيانات العبور الموازي لجميع التركيبات الممكنة لهذه اللغات الجسر.
بالإضافة إلى ذلك، يتم استخدام الترجمة الخلفية لاستكمال عبور التوجيهات التي تم معالجتها بالفعل.