الأخبار

ما مدى انفتاح روبوتات المحادثة "open-domain" وهل نحتاج إليها حقًا؟

هناك اهتمام متزايد ببرامج الدردشة ذات المجال المفتوح (open-domain chatbots)، والتي تم إنشاؤها للتواصل مع البشر في أي موضوع أو مهمة أو مجال. تم دعم هذا الاهتمام من قبل الشخصيات والأنظمة الخيالية في مجال الترفيه (مثل فيلم "Her")، بالإضافة إلى الاهتمام الإعلامي الذي تلقاه روبوتات المحادثة التي تم تطويرها في مختبرات الأبحاث لشركات التكنولوجيا الكبيرة، مثل LaMDA من Google و Facebook’s Blender.

يشير مصطلح "open-domain" إلى أن روبوتات المحادثة هذه يمكنها التحدث حول أي موضوع، والذي يُفترض أنه أكثر تحديًا من المحاولات السابقة لبناء أنظمة خاصة بالمهام. ومع ذلك، فإن حدود "الانفتاح" ومعايير تقييم هذه المحادثات ليست محددة جيدًا.

عادةً ما يُعطى المختبِر البشري مطالبة فارغة ويُطلب منه "الدردشة مع النظام فقط". هذا وضع غير عادي للغاية للتواصل البشري بمعنى أننا لا نتحدث عن أي شيء مع أي شخص وفي أي مكان بشكل عشوائي. بدلاً من ذلك، نحن أكثر انتقائية بشأن اختياراتنا للتواصل من حيث موضوعات المحادثة وفقًا لشركاء المحادثة والسياق (على سبيل المثال، في العمل أو في المدرسة). لذلك، قد يكون بناء روبوت محادثة "مفتوح المجال" حقًا غير واقعي وليس ضروريًا، لأن المحادثات بين البشر ليست "مجالًا مفتوحًا" وعشوائية أيضًا.

في ورقة بحثية حديثة، ناقشنا أن مصطلح "open-domain" قد لا يكون مفيدًا للغاية، وأن الطريقة التي يتم بها تقييم روبوتات الدردشة المفتوحة النطاق الحالية قد لا تختبر حقًا ما إذا كان بإمكانها بالفعل المشاركة في جميع الأشكال المختلفة للمحادثات التي يستخدمها البشر الانخراط في.

عندما نتواصل كبشر، فإننا نفترض شكلاً من أشكال الأرضية المشتركة، أي أن لدينا بعض الأشياء المشتركة مع بعضنا البعض. بصرف النظر عن الأعراف الثقافية و (ربما) الخبرات المشتركة، فإن أحد الأشياء التي نفترضها هو شكل من أشكال النشاط المشترك، أو الغرض من المحادثة. حتى لو بدأنا حديثًا صغيرًا مع شخص غريب عند انتظار الحافلة، فكلانا يعلم أن هذا هو نوع النشاط الذي نشارك فيه، وهو ما سيوجهنا إلى ما قد يكون من المناسب التحدث عنه في هذا السياق. عندما يُطلب منك "الدردشة فقط" مع جهاز كمبيوتر، لا توجد أرضية مشتركة أو نشاط مشترك يمكننا افتراضه.

تتمثل إحدى طرق تصنيف الأنشطة المشتركة في المحادثات في فكرة "أحداث الكلام" التي قدمها Goldsmith & Baxter (1996)، والذي سجل المحادثات اليومية للطلاب على مدار بضعة أسابيع وحدد 39 حدثًا للكلام. يمكن تجميعها تقريبًا في حديث غير رسمي / سطحي (على سبيل المثال، "حديث صغير"، "نكتة حول"، "حديث رياضي"، "ثرثرة"، "التعرف على شخص ما")، إشراك الحديث (على سبيل المثال، "تكوين"، "حديث الحب"، "حديث العلاقات"، "الشكوى")، والكلام الموجه نحو الهدف (على سبيل المثال، "مناقشة جماعية"، "محادثة إقناع"، "محادثة اتخاذ القرار"، "استجواب"، "طلب خدمة") .

ما نوع أحداث الكلام التي يشارك فيها مستخدمو روبوتات الدردشة المفتوحة النطاق بالفعل، عندما يُطلب منهم "الدردشة فقط"؟ للإجابة على هذا السؤال، سمحنا لمضيفين توضيحيين بالتعليق على عينة عشوائية من محادثات chatbot Google Meena المتاحة للجمهور "open-domain"، وفقًا لفئة حدث الكلام. تبين أن غالبية المحادثات (~ 88%) كانت تدور حول فئة الكلام "الأحاديث الصغيرة"، على الرغم من حقيقة أنه تم توجيه المختبرين البشريين للتحدث عن أي شيء دون أي قيود على الموضوع.

كما ذكرنا سابقًا، في حين أن الحديث الصغير الفعلي يفترض أيضًا شكلاً من أشكال الأرضية المشتركة، ربما يكون هذا هو حدث الخطاب الذي من المرجح أن يحدث، نظرًا للتعليمات المحدودة. إذا كانت هذه هي الأحداث الخطابية الوحيدة التي تحدث في تلك التقييمات، فكيف نعرف أنها حقًا "مجال مفتوح"؟ هل ستتمكن برامج الدردشة المفتوحة الحالية من المشاركة في أنشطة الكلام الأخرى؟

للإجابة على هذا السؤال، أجرينا تجربة أولية مع روبوت الدردشة Blender على Facebook. تفاعل أحد المختبرين (بشريًا) مع روبوت المحادثة بناءً على 16 فئة من فئات أحداث الكلام المدرجة أعلاه. لإعداد سياق مشابه، قام نفس المُختبِر أيضًا بالدردشة مع إنسان آخر حول نفس الموضوعات. لم يكن الشخصان (أي المختبِر والمحاور) يعرفان بعضهما البعض مسبقًا ولم يكنا على دراية بهويات بعضهما البعض.

تمت مقارنة المحادثات الناتجة (الإنسان - البشري مقابل النظام البشري) وتقييمها من قبل قضاة بشريين من أطراف ثالثة. بشكل عام، صنف المقيّمون المحادثات بين الإنسان والبشر بدرجة أعلى على عدد من معايير التقييم، مع توضيح أن المحادثات بين البشر كانت أكثر تماسكًا وكان لها تدفق أفضل من المحادثات بين البشر. هذا في تناقض صارخ مع التقييم المقدم في الورقة التي تصف Facebook Blender، حيث لم يتمكن الحكام حقًا من تحديد ما إذا كانوا يفضلون نصوص روبوتات الدردشة البشرية أو البشرية، بناءً على الطريقة التي قاموا بتقييمها (والتي، كما فعلنا، يُرى، يؤدي إلى محادثات محادثة صغيرة). وبالتالي، فإن ما يُظهره تقييمهم حقًا هو أن برنامج Blender chatbot جيد إلى حد ما في المحادثات الصغيرة، ولكن ليس أنه جيد في حوار "open-domain".

منذ أن أجرينا دراستنا في عام 2021، ظهرت روبوتات محادثة جديدة "ذات نطاق مفتوح"، تستخدم العديد من المعلمات وتدربت على المزيد من البيانات، مثل LaMDA من Google. لم نختبر إلى أي مدى يمكنهم التعامل مع أشكال أخرى من أحداث الكلام، وما إذا كانت حقًا "مجال مفتوح"، ولكن كما أوضحنا، لا يمكن أن تساعد التقييمات الحالية في الإجابة على هذا السؤال.

ربما يكون السؤال الأكثر أهمية هو ما إذا كانت فكرة روبوت محادثة "open-domain" منطقية بالنسبة لنا كبشر على الإطلاق. بدلاً من ذلك، ربما ينبغي أن نركز على أنظمة المحادثة الموجودة في الأنشطة البشرية بطريقة ذات مغزى، وحيث يمكن للمستخدم أن يتخذ شكلاً من أشكال الأرضية المشتركة والنشاط المشترك.