الأخبار

شركة Nvidia تتنافس مع Meta و Google في سباق تكنولوجيا الذكاء الاصطناعي للكلام


في مؤتمر Nvidia's Speech AI Summit، ناقشت الشركة النظام البيئي الجديد للذكاء الاصطناعي للكلام (AI)، والذي طورته من خلال شراكة مع Mozilla Common Voice. يركز النظام البيئي على تطوير مجموعات الكلام متعددة اللغات ذات المصادر المفتوحة ونماذج مفتوحة المصدر مسبقة التدريب. تهدف Nvidia و Mozilla Common Voice إلى تسريع نمو نماذج التعرف التلقائي على الكلام التي تعمل عالميًا لكل متحدث لغة في جميع أنحاء العالم.

وجدت Nvidia أن المساعدين الصوتيين القياسيين، مثل Amazon Alexa و Google Home، يدعمون أقل من 1% من اللغات المنطوقة في العالم. لحل هذه المشكلة، تهدف الشركة إلى تحسين التضمين اللغوي في الذكاء الاصطناعي للكلام وتوسيع توافر بيانات الكلام للغات العالمية وذات الموارد المنخفضة.

تنضم Nvidia إلى سباق تديره كل من Meta و Google بالفعل: في الآونة الأخيرة، أصدرت الشركتان نماذج AI للكلام للمساعدة في التواصل بين الأشخاص الذين يتحدثون لغات مختلفة. يمكن لنموذج الترجمة بالذكاء الاصطناعي لتحويل الكلام إلى كلام من Google، مركز الترجمة، ترجمة حجم كبير من المستندات إلى العديد من اللغات المختلفة. كما أعلنت Google للتو أنها تبني مترجمًا عالميًا للكلام، تم تدريبه على أكثر من 400 لغة، مع الادعاء بأنه "أكبر تغطية لنموذج اللغة يُرى في نموذج الكلام اليوم".

في الوقت نفسه، يساعد مشروع مترجم الكلام العالمي (UST) universal speech translator التابع لمنظمة Meta AI في إنشاء أنظمة ذكاء اصطناعي تمكن من ترجمة الكلام إلى كلام في الوقت الفعلي عبر جميع اللغات، حتى تلك التي يتم التحدث بها ولكن ليست مكتوبة بشكل شائع.

نظام بيئي لمستخدمي اللغة العالمية
وفقًا لـ Nvidia، فإن التضمين اللغوي للخطاب AI له فوائد شاملة لصحة البيانات، مثل مساعدة نماذج الذكاء الاصطناعي على فهم تنوع السماعات ومجموعة من ملفات تعريف الضوضاء. يساعد النظام البيئي الجديد للذكاء الاصطناعي للكلام المطورين على بناء وصيانة وتحسين نماذج ومجموعات بيانات الذكاء الاصطناعي للكلام من أجل الشمول اللغوي وسهولة الاستخدام والخبرة. يمكن للمستخدمين تدريب نماذجهم على مجموعات بيانات Mozilla Common Voice، ومن ثم تقديم تلك النماذج التي تم اختبارها مسبقًا كبنيات عالية الجودة للتعرف التلقائي على الكلام. بعد ذلك، يمكن للمؤسسات والأفراد الآخرين في جميع أنحاء العالم تكييف هذه البنى واستخدامها لبناء تطبيقات الذكاء الاصطناعي الخاصة بالكلام.

قالت كارولين دي بريتو جوتليب، مديرة المنتج في Nvidia: "التنوع الديموغرافي هو المفتاح لالتقاط التنوع اللغوي". "هناك العديد من العوامل الحيوية التي تؤثر على تنوع الكلام، مثل اللهجات المحرومة، واللهجات الاجتماعية، واللكنات. من خلال هذه الشراكة، نهدف إلى إنشاء نظام بيئي لمجموعة البيانات يساعد المجتمعات على بناء مجموعات بيانات ونماذج للكلام لأي لغة أو سياق".

تدعم منصة Mozilla Common Voice حاليًا 100 لغة، مع توفر 24000 ساعة من بيانات الكلام من 500000 مساهم حول العالم. يتميز أحدث إصدار من مجموعة بيانات الصوت المشترك بست لغات جديدة - تيغري والتايوانية (مينان) وميدو ماري والبنغالية وتوكي بونا والكانتونية، بالإضافة إلى المزيد من بيانات الكلام من المتحدثات الإناث.

من خلال النظام الأساسي Mozilla Common Voice، يمكن للمستخدمين التبرع بمجموعات البيانات الصوتية الخاصة بهم عن طريق تسجيل الجمل كمقاطع صوتية قصيرة، والتي تتحقق موزيلا من صحتها لضمان جودة مجموعة البيانات عند الإرسال.

قال سيدهارث شارما، رئيس تسويق المنتجات والذكاء الاصطناعي والتعلم العميق في Nvidia: "يركز النظام البيئي للخطاب AI بشكل كبير ليس فقط على تنوع اللغات، ولكن أيضًا على اللهجات وملفات الضوضاء التي يمتلكها متحدثو اللغات المختلفون في جميع أنحاء العالم". "لقد كان هذا هو تركيزنا الفريد في Nvidia وقمنا بإنشاء حل يمكن تخصيصه لكل جانب من جوانب خط أنابيب نموذج الذكاء الاصطناعي للكلام".

تطبيقات الذكاء الاصطناعي للكلام الحالية من Nvidia
تقوم الشركة بتطوير الكلام AI للعديد من حالات الاستخدام، مثل التعرف التلقائي على الكلام (ASR) automatic speech recognition، وترجمة الكلام الاصطناعي (AST) artificial speech translation وتحويل النص إلى كلام. توفر Nvidia Riva، وهي جزء من منصة Nvidia AI، أحدث تدفقات عمل مُحسّنة لوحدة معالجة الرسومات (GPU) لبناء ونشر خطوط أنابيب AI قابلة للتخصيص بالكامل في الوقت الفعلي لتطبيقات مثل مساعدة وكيل مركز الاتصال، والمساعدين الافتراضيين، والصور الرمزية الرقمية، وأصوات العلامة التجارية ونسخ مؤتمرات الفيديو. يمكن نشر التطبيقات التي تم تطويرها من خلال Riva عبر جميع أنواع السحابة ومراكز البيانات، على الحافة أو على الأجهزة المضمنة.

قامت شركة NCS، وهي شركة متعددة الجنسيات وشريك في تكنولوجيا النقل لحكومة سنغافورة، بتخصيص نموذج Riva FastPitch الخاص بشركة Nvidia وصنعت محركها الخاص لتحويل النص إلى كلام للغة الإنجليزية - سنغافورة باستخدام البيانات الصوتية للمتحدثين المحليين. صممت NCS مؤخرًا تطبيق Breeze، وهو تطبيق سائق محلي يترجم اللغات بما في ذلك Mandarin و Hokkien و Malay و Tamil إلى اللغة الإنجليزية السنغافورية بنفس الوضوح والتعبير الذي يتحدث به مواطن سنغافوري أصلي.

كما أبرمت مجموعة اتصالات الهاتف المحمول T-Mobile شراكة مع Nvidia لتطوير برنامج قائم على الذكاء الاصطناعي لمراكز تجربة العملاء الخاصة به والذي يقوم بنسخ محادثات العملاء في الوقت الفعلي ويوصي بالحلول لآلاف العاملين في الخطوط الأمامية. لإنشاء البرنامج، استخدمت T-Mobile Nvidia NeMo، وهو إطار عمل مفتوح المصدر لأحدث نماذج الذكاء الاصطناعي للمحادثات، جنبًا إلى جنب مع Riva. مكّنت أدوات Nvidia هذه مهندسي T-Mobile من ضبط نماذج ASR على مجموعات البيانات المخصصة من T-Mobile وتفسير مصطلحات العملاء بدقة عبر البيئات الصاخبة.

تركيز Nvidia المستقبلي على الذكاء الاصطناعي للكلام
يقول شارما إن Nvidia تهدف إلى غرس التطورات الحالية لـ AST والجيل التالي من الذكاء الاصطناعي في حالات استخدام metaverse في الوقت الفعلي.

قال "اليوم، نحن مقيدون فقط بتقديم ترجمة بطيئة من لغة إلى أخرى، وهذه الترجمات يجب أن تمر عبر النص". قال: "لكن المستقبل هو المكان الذي يمكن أن يكون فيه أشخاص في metaverse عبر العديد من اللغات المختلفة، كلهم ​​قادرون على الحصول على ترجمة فورية مع بعضهم البعض".

وأضاف: "تتمثل الخطوة التالية في تطوير أنظمة تتيح تفاعلاً سلسًا مع الأشخاص في جميع أنحاء العالم من خلال التعرف على الكلام لجميع اللغات وتحويل النص إلى كلام في الوقت الفعلي".