الأخبار

ما تعلمناه خلال عقد من استخدام Siri و Alexa و Google Assistant

على مدار العقد الماضي، شهدنا جميعًا ارتفاعًا كبيرًا وإنجازات مهمة في مجال الذكاء الاصطناعي الصوتي. اليوم، يعد الذكاء الاصطناعي للمحادثة نموذجًا جديدًا، والنشوة من حوله ترفض الاستقرار.

إذا ألقينا نظرة على النشاط التجاري، فستكون آفاق الصوت مشرقة. من المتوقع أن يصل سوق المساعد الصوتي العالمي إلى 30.74 مليار دولار بحلول عام 2030، مسجلاً معدل نمو سنوي مركب قدره 31.2% خلال الفترة المتوقعة 2020-2030. من جانب العملاء، فإن التوقعات واعدة أيضًا: من المتوقع أن يستخدم 142 مليون شخص في الولايات المتحدة، أو 42.1% من السكان، المساعدين الصوتيين في عام 2023.

تظهر الاستطلاعات، مع ذلك، أن ما يصل إلى ربع مالكي الأجهزة الصوتية الجدد توقفوا عن استخدام المساعدين الصوتيين في الأسبوع الثاني، ويستخدم جزء كبير من العملاء المساعدين الصوتيين لعدد محدود من المهام البسيطة مثل اختيار الموسيقى أو طلب الوقت. يقول بريان جليك، مؤسس شركة البرمجيات Chain.io ومقرها فيلادلفيا: "لست مؤهلاً لاستخدام المساعدين الصوتيين في الأشياء التي لها عواقب".

نظرًا لأن المساعدين الصوتيين يكافحون لفهم نية المتحدث، فإن المستخدمين المزعجين ليسوا الطرف الوحيد المتضرر. يتأثر العمل أيضًا نظرًا لأن المساعدين الصوتيين غير الموثوق بهم يضرون بسمعة الشركات التي تنفذ إجراءات Google أو مهارات Alexa لتطبيقاتها.

ما هي أكثر المساعدين الصوتيين شيوعًا اليوم - مثل Siri و Alexa و Google Assistant - التي تفتقر إليها؟ هناك العديد من التحديات في جوهر ما يجعل تجربة المحادثة فعالة.

# 1: عائد الاستثمار - حتمية العمل
بالنسبة لصانعي القرار في الشركات، يعتبر عائد الاستثمار هو التركيز الأساسي. يجب أن تضيف الذكاء الاصطناعي للمحادثة إلى النظام الإيكولوجي للشركة قيمة لتجربة العميل، وتقلل من التكاليف التشغيلية وتدر إيرادات للعلامة التجارية - تمامًا مثل واجهات واجهة المستخدم الرسومية التقليدية لمنصات الويب والهواتف المحمولة.

في الواقع، لا تزال العديد من المؤسسات مترددة في تنفيذ استراتيجية الصوت خوفًا من عدم قدرتها على إثبات عائد الاستثمار، وتبرير إنفاقها على أحدث التطورات في المحادثة والبدء في جني الفوائد من المساعدين الصوتيين على المدى القصير.

# 2: نهج متعدد الوسائط
تتبع العديد من حلول الذكاء الاصطناعي للمحادثة اليوم نهجًا أحادي الوسائط أو صوتيًا فقط، مما يتيح للمستخدمين الوصول إلى وظائفهم فقط من خلال الكلام البشري. قد يكون الصوت وحده حلاً لسيناريوهات مباشرة. ومع ذلك، في معظم حالات الاستخدام، لا ينبغي أن تحل واجهة المحادثة محل واجهة المستخدم الرسومية الحالية للتطبيق بل تزيدها وتعززها.

يعتمد الدماغ البشري بقوة على التواصل البصري، حيث يستهلك 80% من المعلومات مع ما نراه و 20% فقط بما نسمعه. بطريقة مماثلة، يجب أن تستفيد الحلول الصوتية من الواجهات المرئية الحالية لمنتجات البرامج - لكنها لا تفعل ذلك، حيث تترك المستخدمين في الغالب بردود صوتية فقط.

يؤدي مزج الصوت مع العناصر المرئية إلى إنشاء تجربة مستخدم متعددة الوسائط تدعم قدرة العملاء على اختيار وضع التفاعل بناءً على تفضيلاتهم وسياقهم واحتياجاتهم - الصوت والنوع واللمس أو مزيج من الاثنين معًا.

توفر الواجهة متعددة الوسائط نموذجًا أكثر شفافية وقوة وفعالية للتفاعل بين التطبيقات والبشر. هنا، تكمل الطريقتان بعضهما البعض لتجربة عملاء أكثر ذكاءً وكفاءة. يزيل الصوت قيود واجهة المستخدم الرسومية الحالية - بدلاً من التحسس بين الشاشات بحثًا عن الخيار المطلوب، يمكن للمستخدمين تشغيل الإجراءات باستخدام الأوامر الصوتية في أي وقت ومن أي مكان. يوفر تطبيق واجهة المستخدم الرسومية (GUI) بدوره سياقًا للمساعد الصوتي. يعمل الصوت متزامنًا مع العناصر المرئية، بحيث يكون المستخدمون دائمًا على دراية بما يحدث في التطبيق في لحظة التحدث.

من أجل راحة العملاء، يجب أن يوفر الحل الذي يدعم الصوت إمكانية استخدام الصوت وواجهة المستخدم الرسومية الحالية بالتبادل. عندما تكون واجهة المستخدم الرسومية في إعداد عام، فهي وضع تفاعل مفضل، ولكن عندما تكون يدا المستخدم مشغولة، يكون الصوت ضروريًا.

# 3: تصميم حيادي النظام الأساسي
أحد العوائق الرئيسية للمساعدين الصوتيين هو قفل التكنولوجيا. Siri و Google Assistant و Bixby و Alexa خاصة بالمورد والجهاز ونظام التشغيل، وتفتقر إلى الدعم عبر الأنظمة الأساسية. فقط لمكبرات الصوت الذكية. فقط على أجهزة iOS أو Android. لا شيء للمستخدمين على الويب.
 

الشركات التي تختار تنفيذ الحلول الصوتية إما أن تكون عالقة في منصة واحدة أو تحتاج إلى الاستفادة من عدد كبير من الأدوات، مما يؤدي إلى إنفاق الكثير من الوقت والجهد والمال في عملية التطوير. علاوة على ذلك، فإن هذا يطرح مشكلة وجود نظام بيئي صوتي مجزأ ومتناثر يصعب دعمه وصيانته.

# 4: مجموعة أدوات صديقة للمطورين
والسؤال الأخير هو، من الذي سيجلب الصوت لمنتجات البرمجيات؟ كقاعدة عامة، هؤلاء هم المطورون الذين قاموا ببناء المنتج، وهم بحاجة إلى نظام أساسي للذكاء الاصطناعي للمحادثات منخفض الكود مع دعم عبر الأنظمة الأساسية على الويب والجوال لدمج الصوت بسلاسة في سير عملهم.

ربما يكون العثور على أدوات التطوير المناسبة وواجهات برمجة التطبيقات وتجميع كل القطع هو المهمة الأكثر صعوبة. مع وجود العديد من الأجزاء المتحركة - SST، و TTS، والعلامات الذكية، والتعرف على الكيانات المسماة، ودعم كلمات التنبيه المخصصة - والعديد من الأهداف التي يجب تشغيلها، يمكن للأشياء أن تخرج عن نطاق السيطرة بسرعة.

يمكن أن يجعل نظام AI للمحادثة الكل في واحد مع دعم عبر الأنظمة الأساسية الحياة أسهل وأكثر سلاسة لجميع المعنيين. المطورون، الذين يمكنهم إنشاء مساعد افتراضي مرة واحدة وتضمينه في التطبيقات التي تم إنشاؤها باستخدام أطر ولغات برمجة مختلفة. والشركات التي يمكنها تقديم تجربة محادثة للمستخدمين على الأجهزة المحمولة، سواء التي تعمل بنظام iOS و Android، أو في إصدارات الويب وسطح المكتب لتطبيقاتها.
 

قد يبدو إنشاء واجهة صوتية أمرًا صعبًا في البداية - ولكن ليس عندما تكون لديك الأدوات المناسبة.

من المؤكد أن منصات المحادثة من قبل Apple و Google و Samsung و Amazon كان لها تأثير كبير على صناعة التكنولوجيا. ومع ذلك، على مدار العقد الماضي، لم يصبح الصوت هو السائد، ولا تزال معظم تطبيقات الويب والجوال تعتمد على واجهة المستخدم الرسومية التقليدية، بدلاً من التجارب الصوتية.

سيعتمد الاستفادة من الإمكانات الهائلة للصوت على الجمع بين العناصر الصحيحة، والتي تشمل ما يلي:

- ضمان عائد استثمار سريع من الحلول التي تعمل بالصوت
- توفير تجربة مستخدم متسقة لجميع إصدارات التطبيق، على iOS و Android و Web
- التكامل مع واجهة المستخدم الرسومية الحالية وتوفير تجربة مستخدم ثرية متعددة الوسائط أقرب بكثير إلى تفاعلات العالم الحقيقي
- كن سهل الاستخدام للمطورين لنشر التجارب الصوتية وتكرارها بسرعة

المحادثات متأصلة فينا كبشر، وهذا هو السبب في أن الواجهة الصوتية هي المستقبل لكل تطبيق. مع تحذير صغير، بالطبع - يجب أن يتعايش مع واجهة المستخدم الرسومية التقليدية التي اعتدنا عليها جميعًا في العقود السابقة.