الأخبار

لماذا هناك حاجة للإنسانية لدفع الذكاء الاصطناعي للمحادثة

الذكاء الاصطناعي للمحادثة هو مجموعة فرعية من الذكاء الاصطناعي (AI) يسمح للمستهلكين بالتفاعل مع تطبيقات الكمبيوتر كما لو كانوا يتفاعلون مع إنسان آخر. وفقًا لشركة Deloitte، من المقرر أن ينمو سوق الذكاء الاصطناعي للمحادثات العالمية بنسبة 22% بين عامي 2022 و 2025 ويُقدر أن يصل إلى 14 مليار دولار بحلول عام 2025.

من خلال توفير تخصيصات محسّنة للغة لتلبية احتياجات مجموعة واسعة ومتنوعة للغاية من الجماهير المحلية الفائقة، تتضمن العديد من التطبيقات العملية لذلك الخدمات المالية، وأجنحة المستشفيات والمؤتمرات، ويمكن أن تتخذ شكل تطبيق ترجمة أو روبوت محادثة. وفقًا لـ Gartner، يُزعم أن 70% من العاملين ذوي الياقات البيضاء يتفاعلون بانتظام مع منصات المحادثة، لكن هذا مجرد قطرة في محيط مما يمكن أن يتكشف هذا العقد.

على الرغم من الإمكانات المثيرة في مجال الذكاء الاصطناعي، إلا أن هناك عقبة كبيرة واحدة؛ البيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي على المحادثة لا تأخذ في الحسبان التفاصيل الدقيقة لللهجة واللغة وأنماط الكلام والتصريف.

عند استخدام تطبيق ترجمة، على سبيل المثال، سيتحدث الفرد بلغته المصدر، وسيقوم الذكاء الاصطناعي بحساب هذه اللغة المصدر وتحويلها إلى اللغة الهدف. عندما ينحرف المتحدث المصدر عن اللهجة المكتسبة المعيارية - على سبيل المثال، إذا كانوا يتحدثون بلهجة إقليمية أو يستخدمون لغة عامية إقليمية - فإن معدل فعالية الترجمة الحية ينخفض. لا يوفر هذا تجربة دون المستوى فحسب، بل يعيق أيضًا قدرة المستخدمين على التفاعل في الوقت الفعلي، إما مع الأصدقاء والعائلة أو في بيئة عمل.

الحاجة للإنسانية في الذكاء الاصطناعي
من أجل تجنب حدوث انخفاض في معدلات الفعالية، يجب على الذكاء الاصطناعي الاستفادة من مجموعة بيانات متنوعة. على سبيل المثال، يمكن أن يشمل ذلك الحصول على تصوير دقيق للمتحدثين في جميع أنحاء المملكة المتحدة - على المستويين الإقليمي والوطني - من أجل توفير ترجمة نشطة بشكل أفضل وتسريع التفاعل بين المتحدثين من مختلف اللغات واللهجات.

تعد فكرة استخدام بيانات التدريب في برامج ML مفهومًا بسيطًا، ولكنها أيضًا أساسية للطريقة التي تعمل بها هذه التقنيات. تعمل بيانات التدريب في بنية فريدة من التعلم المعزز وتستخدم لمساعدة البرنامج على فهم كيفية تطبيق تقنيات مثل الشبكات العصبية للتعلم وتحقيق نتائج معقدة. كلما زاد عدد الأشخاص الذين يتفاعلون مع هذه التقنية في النهاية الخلفية، على سبيل المثال، المتحدثون الذين يعانون من إعاقات في الكلام أو التعتيم، كانت تجربة الترجمة الناتجة أفضل.

على وجه التحديد في مساحة الترجمة، فإن التركيز على كيفية تحدث المستخدم بدلاً من ما يتحدث عنه هو المفتاح لزيادة تجربة المستخدم النهائي. تم توضيح الجانب المظلم من التعلم المعزز في الأخبار الأخيرة مع Meta، الذي تعرض مؤخرًا لانتقادات لامتلاكه روبوت محادثة أطلق تعليقات غير حساسة - والتي تعلمتها من التفاعل العام. لذلك يجب أن تحتوي بيانات التدريب دائمًا على إنسان في الحلقة (HITL) human-in-the-loop، حيث يمكن للإنسان التأكد من أن الخوارزمية الشاملة دقيقة ومناسبة للغرض.

مراعاة الطبيعة النشطة للمحادثة البشرية
بالطبع، يعتبر التفاعل البشري دقيقًا بشكل لا يصدق، كما أن بناء تصميم محادثة روبوت يمكنه التغلب على تعقيده يمثل تحديًا دائمًا. ومع ذلك، فبمجرد تحقيق تصميم محادثة جيد التنظيم ومُحقق بالكامل، يمكن أن يخفف العبء على فرق خدمة العملاء وتطبيقات الترجمة وتحسين تجارب العملاء. بعيدًا عن اللهجات الإقليمية واللغة العامية، يجب أن تأخذ بيانات التدريب في الحسبان أيضًا محادثة نشطة بين متحدثين أو أكثر يتفاعلون مع بعضهم البعض. يجب أن يتعلم الروبوت من أنماط حديثه، والوقت المستغرق لتحقيق المقاطعة، والتوقف المؤقت بين السماعات ثم الاستجابة.

يعد توازن تحديد الأولويات أيضًا طريقة رائعة لضمان بقاء المحادثات تجربة نشطة للمستخدم، وإحدى طرق القيام بذلك هي التخلص من الاستجابات المسدودة. فكر في هذا الأمر أقرب إلى أن تكون في بيئة محسّنة، حيث تكون جمل "نعم" و "نعم" أساسية. بعبارة أخرى، من المفترض أن تقبل بناء العالم لشريكك مع جلب عنصر جديد إلى الطاولة. تعمل الروبوتات الأكثر فاعلية بشكل مشابه من خلال صياغة الردود بشكل مفتوح لتشجيع الاستفسارات الإضافية. يمكن أن يساعد تقديم الخيارات والخيارات الإضافية ذات الصلة في ضمان تلبية جميع احتياجات المستخدمين النهائيين.

يواجه العديد من الأشخاص صعوبة في تذكر خيوط التفكير الطويلة أو يستغرقون وقتًا أطول قليلاً لمعالجة أفكارهم. لهذا السبب، من الأفضل أن تتيح تطبيقات الترجمة للمستخدمين وقتًا كافيًا لحساب أفكارهم قبل التوقف في نهاية المداخلة. يعد تدريب الروبوت على تعلم كلمات الحشو - بما في ذلك، erm، حسنًا، أم، أو ما شابه، باللغة الإنجليزية على سبيل المثال - وحملهم على ربط مهلة أطول بهذه الكلمات هي طريقة جيدة للسماح للمستخدمين بالمشاركة في أكثر واقعية محادثة في الوقت الحقيقي. إن تقديم برمجة "المداخلة" المستهدفة (فرص للمستخدمين لمقاطعة الروبوت) هي أيضًا طريقة أخرى لمحاكاة الطبيعة النشطة للمحادثة بشكل أكثر دقة.

الابتكارات المستقبلية في الذكاء الاصطناعي للمحادثة
لا يزال أمام الذكاء الاصطناعي للمحادثة (Conversational AI) بعض الشوط قبل أن يشعر جميع المستخدمين بأنهم ممثلون بدقة. سيكون حساب التفاصيل الدقيقة لللهجة، والوقت الذي يستغرقه المتحدثون في التفكير، بالإضافة إلى الطبيعة النشطة للمحادثة، أمرًا محوريًا لدفع هذه التكنولوجيا إلى الأمام. على وجه التحديد في مجال تطبيقات الترجمة، فإن حساب فترات التوقف المؤقت والكلمات المرتبطة بالتفكير سيؤدي إلى تحسين التجربة لجميع المعنيين ومحاكاة محادثة أكثر طبيعية ونشاطًا.

إن الحصول على البيانات للاستفادة من مجموعة بيانات أوسع في العملية الخلفية، على سبيل المثال التعلم من تأملات اللغة الإنجليزية RP و Geordie، سوف يتجنب فعالية الترجمة بسبب مشاكل المعالجة بسبب اللهجة. توفر هذه الابتكارات إمكانات مثيرة، وقد حان الوقت لتطبيقات الترجمة والروبوتات لحساب التفاصيل اللغوية الدقيقة وأنماط الكلام.