الأخبار

شركة Meta تدعي أن الذكاء الاصطناعي الخاص بها يحسن جودة التعرف على الكلام من خلال قراءة الشفاه

يدرك الناس الكلام من خلال الاستماع إليه ومشاهدة حركات شفاه المتحدثين. في الواقع، تُظهر الدراسات أن الإشارات المرئية تلعب دورًا رئيسيًا في تعلم اللغة. على النقيض من ذلك، فإن أنظمة التعرف على الكلام AI مبنية في الغالب - أو بالكامل - على الصوت. ويتطلب تدريبهم قدرًا كبيرًا من البيانات، يتراوح عادةً في عشرات الآلاف من الساعات من التسجيلات.

لاستكشاف ما إذا كانت المرئيات - خاصة لقطات حركة الفم - يمكن أن تحسن أداء أنظمة التعرف على الكلام، قام الباحثون في Meta (Facebook سابقًا) بتطوير Audio-Visual Hidden Unit BERT (AV-HuBERT)، وهو إطار يتعلم فهم الكلام من خلال المشاهدة. وسماع الناس يتحدثون. تدعي Meta أن AV-HuBERT أكثر دقة بنسبة 75٪ من أفضل أنظمة التعرف على الكلام السمعي البصري التي تستخدم نفس عدد النسخ. علاوة على ذلك، تقول الشركة، يتفوق AV-HuBERT في الأداء على أفضل نظام للتعرف على الكلام سمعيًا بصريًا سابقًا باستخدام عُشر البيانات المصنفة - مما يجعله مفيدًا للغات التي تحتوي على القليل من البيانات الصوتية.

قال عبد الرحمن محمد Abdelrahman Mohamed عالم أبحاث Meta AI في مقابلة لـ VentureBeat: "في المستقبل، يمكن استخدام أطر عمل الذكاء الاصطناعي مثل AV-HuBERT لتحسين أداء تقنية التعرف على الكلام في الظروف اليومية الصاخبة - على سبيل المثال، التفاعلات في حفلة أو في شوارع سوق صاخب". "ويمكن للمساعدين في الهواتف الذكية، ونظارات الواقع المعزز، ومكبرات الصوت الذكية المزودة بكاميرا - على سبيل المثال، Alexa Echo Show - الاستفادة من هذه التقنية أيضًا".
 
AV-HuBERT
ميتا ليست أول من يطبق الذكاء الاصطناعي AI على مشكلة قراءة الشفاه. في عام 2016، أنشأ باحثون في جامعة أكسفورد نظامًا كان تقريبًا ضعف دقة أجهزة قراءة الشفاه من ذوي الخبرة في اختبارات معينة ويمكنه معالجة الفيديو في وقت قريب من الوقت الفعلي. وفي عام 2017، دربت شركة DeepMind المملوكة لشركة Alphabet نظامًا على آلاف الساعات من البرامج التلفزيونية لترجمة حوالي 50% من الكلمات دون أخطاء في مجموعة الاختبار بشكل صحيح، وهو أفضل بكثير من 12.4% لدى خبير بشري.

لكن نماذج جامعة أكسفورد وديب مايند DeepMind، كما هو الحال مع العديد من نماذج قراءة الشفاه اللاحقة، كانت محدودة في نطاق المفردات التي يمكنهم التعرف عليها. تطلبت النماذج أيضًا مجموعات بيانات مقترنة بنصوص من أجل التدريب، ولم يتمكنوا من معالجة صوت أي مكبرات صوت في مقاطع الفيديو.

بشكل فريد إلى حد ما، تستفيد AV-HuBERT من التعلم غير الخاضع للإشراف أو الإشراف الذاتي. من خلال التعلم الخاضع للإشراف، يتم تدريب الخوارزميات مثل DeepMind على بيانات المثال المصنفة حتى يتمكنوا من اكتشاف العلاقات الأساسية بين الأمثلة والمخرجات المحددة. على سبيل المثال، قد يتم تدريب النظام على كتابة كلمة "كلب" (الإخراج) عند عرض صورة لفصيل كورجي (المثال). ومع ذلك، تعلم AV-HuBERT نفسها لتصنيف البيانات غير المسماة- معالجة البيانات للتعلم من هيكلها المتأصل.
AV-HuBERT هو أيضًا متعدد الوسائط بمعنى أنه يتعلم إدراك اللغة من خلال سلسلة من إشارات الصوت وحركة الشفاه. من خلال الجمع بين إشارات مثل حركة الشفاه والأسنان أثناء التحدث، جنبًا إلى جنب مع المعلومات السمعية، تقول Meta أن AV-HuBERT يمكنها التقاط "ارتباطات دقيقة Nuanced associations" بين نوعي البيانات.

تم تدريب نموذج AV-HuBERT الأولي على 30 ساعة من مقاطع فيديو TED Talk باللغة الإنجليزية، وهي أقل بكثير من 31000 ساعة التي تم فيها تدريب النموذج الحديث السابق. ولكن على الرغم من التدريب على بيانات أقل، كان معدل أخطاء الكلمات (WER) الخاص بـ AV-HuBERT، وهو مقياس لأداء التعرف على الكلام، أفضل قليلاً بنسبة 32.5% مقابل 33.6% للنموذج القديم في الحالات التي يمكن فيها رؤية المتحدث ولكن لا يسمع. (يتم حساب WER بقسمة عدد الكلمات التي تم التعرف عليها بشكل غير صحيح على العدد الإجمالي للكلمات؛ 32.5% يترجم إلى خطأ واحد تقريبًا كل 30 كلمة). أدى التدريب على 433 ساعة من TED Talks إلى تقليل معدل WER الخاص بـ AV-HuBERT إلى 28.6%.

بمجرد أن تعلم AV-HuBERT الهيكل والعلاقة بين البيانات جيدًا، تمكن الباحثون من تدريبه بشكل أكبر على البيانات غير المسماة: 2442 ساعة من مقاطع الفيديو باللغة الإنجليزية للمشاهير التي تم تحميلها على YouTube. لم يؤدي ذلك إلى خفض WER إلى 26.9% فحسب، بل قالت Meta إنها توضح أن كمية صغيرة فقط من البيانات المصنفة مطلوبة لتدريب إطار العمل لتطبيق معين (على سبيل المثال، عندما يتحدث عدة أشخاص في وقت واحد) أو لغة مختلفة .

في الواقع، تدعي Meta أن AV-HuBERT أفضل بنحو 50% من النماذج الصوتية فقط في التعرف على كلام الشخص أثناء تشغيل الموسيقى الصاخبة أو الضوضاء في الخلفية. وعندما يكون الصوت والضوضاء الخلفية مرتفعين بشكل متساوٍ، فإن AV-HuBERT تدير 3.2% WER مقابل 25.5% لأفضل طراز متعدد الوسائط سابقًا.

النواقص المحتملة Potential shortcomings
من نواحٍ عديدة، تُعد AV-HuBERT رمزًا لاستثمار Meta المتزايد في تقنية متعددة الوسائط غير خاضعة للإشراف للمهام المعقدة. قامت الشركة مؤخرًا بتفصيل نظام جديد متعدد الوسائط مصمم لمعالجة المحتوى الضار على منصاتها، يسمى Few-Shot Learner، وأصدرت نماذج يمكنها تعلم التعرف على الكلام، وتقسيم الصور، ونسخ نمط النص، والتعرف على الكائنات من البيانات غير المسماة. على عكس الأنظمة الخاضعة للإشراف، يمكن أن تكون الأنظمة غير الخاضعة للإشراف أكثر مرونة بشكل ملحوظ وأرخص لنشرها؛ تأتي الملصقات في مجموعات البيانات المصنفة من المعلقين البشريين الذين يتعين عليهم إضافة كل منها بشق الأنفس.

نظرًا لأنه يتطلب بيانات أقل تصنيفًا للتدريب، تقول ميتا إن AV-HuBERT يمكن أن تفتح إمكانيات تطوير نماذج محادثة للغات "منخفضة الموارد low-resource"، مثل عائلة Susu في النيجر الكونغو. قد يكون AV-HuBERT مفيدًا أيضًا في إنشاء أنظمة التعرف على الكلام للأشخاص الذين يعانون من إعاقات في الكلام، كما تقترح الشركة، بالإضافة إلى اكتشاف التزييف العميق deepfakes وتوليد حركات الشفاه الواقعية لصور الواقع الافتراضي.

لكن أوس كيز Os Keyes، خبير أخلاقيات الذكاء الاصطناعي AI ethicist في جامعة واشنطن، أعرب عن مخاوفه من أن AV-HuBERT لديه قيود تتعلق بالفئة والإعاقة. وأخبر VentureBeat عبر البريد الإلكتروني: "إذا كنت تحاول تقييم أنماط كلام الناس من "حركة الشفاه والأسنان"، فكيف هل هذا يعمل مع الأشخاص الذين يعانون من أنماط كلام مشوهة نتيجة للإعاقة؟"، "يبدو نوعًا من السخرية أن نتمكن من بناء برنامج للتعرف على الكلام يعتمد على قراءة الشفاه، ومن المحتمل أن تكون به أخطاء عند الإشارة إلى... الأشخاص الصم".

في ورقة بحثية من Microsoft و Carnegie Mellon تقترح خارطة طريق بحثية نحو الإنصاف في الذكاء الاصطناعي، أشار المؤلفون المشاركون إلى أن جوانب أنظمة تحليل الوجه المشابهة لـ AV-HuBERT قد لا تعمل بشكل جيد للأشخاص الذين يعانون من متلازمة داون، والتقزم Achondroplasia (التي تضعف نمو العظام)، و "الحالات الأخرى التي تؤدي إلى اختلافات مميزة في الوجه". لاحظ الباحثون أن مثل هذه الأنظمة قد تفشل أيضًا بالنسبة للأشخاص الذين أصيبوا بسكتة دماغية، أو الذين يعانون من مرض باركنسون Parkinson، أو شلل بيل Bell’s Palsy، أو التوحد autism، أو متلازمة ويليامز Williams syndrome- والذين قد لا يستخدمون (أو يكونون قادرين على استخدام) نفس تعبيرات الوجه التي يستخدمها النمط العصبي. اشخاص.

في رسالة بريد إلكتروني، أكد Mohamed أن AV-HuBERT يركز فقط على منطقة الشفاه لالتقاط حركات الشفاه- وليس الوجه بالكامل. على غرار معظم نماذج الذكاء الاصطناعي، أضاف: "سيكون أداء AV-HuBERT "متناسبًا مع عدد العينات التمثيلية للمجموعات السكانية المختلفة في بيانات التدريب".

لتقييم نهجنا، استخدمنا مجموعة بيانات LRS3 المتاحة للجمهور، والتي تتكون من مقاطع فيديو TED Talk التي تم إتاحتها للجمهور في 2018 من قبل باحثي جامعة أكسفورد. نظرًا لأن مجموعة البيانات هذه لا تمثل المتحدثين ذوي الإعاقة، فليس لدينا نسبة مئوية محددة لتدهور الأداء المتوقع". "[لكن] هذه التكنولوجيا المقترحة حديثًا لا تقتصر على التوزيع الحالي للمتحدثين في مجموعة بيانات التدريب. نتوقع أن مجموعات بيانات التدريب المختلفة التي تغطي مجموعات سكانية أوسع ومتنوعة ستحقق مكاسب كبيرة في الأداء".

تقول Meta إنها "ستستمر في تقييم وتطوير الأساليب التي تعمل على تحسين نماذج التعرف على الكلام السمعي البصري في السيناريوهات اليومية حيث تكون الضوضاء الخلفية وتداخل السماعات أمرًا شائعًا". علاوة على ذلك، فإنها تخطط لتوسيع نطاق AV-HuBERT- الذي لا تخطط Meta لإدخاله في الإنتاج- إلى معايير متعددة اللغات بخلاف اللغة الإنجليزية.