At just 2.2MB, Google’s new speech filtering tech is perfect for mobile apps
تمتلك Google الكثير من التطبيقات على هاتفك التي تستخدم اكتشاف الكلام من مساعد Google إلى Google Translate وتطبيق Pixel الأنيق للتسجيل. ومع ذلك، فإن أحد التحديات التي تواجهها هذه التطبيقات هو فصل صوتك عن الآخرين أو فصل الضوضاء في الخلفية.
للتغلب على هذه التحديات، قام فريق الذكاء الاصطناعي في Google ببناء نموذج جديد خفيف الوزن يسمى VoiceFilter-lite. في عام 2018، كشف الفريق النقاب عن أول نموذج VoiceFilter الذي يستخدم تقنية المطابقة الصوتية للشركة. يتم استخدامه في مساعد Google لتحليل كلامك وصوتك عند التسجيل في إحدى الخدمات.
في كثير من الأحيان التعرف على الأصوات بكفاءة- من الناحية الفنية، وتحقيق نسبة أفضل من المصدر إلى التشويه (SDR)- يأخذ نموذجًا بحجم كبير، وطاقة وحدة المعالجة المركزية البارزة، واستهلاك البطارية.
لهذا السبب توصل فريق Google إلى نموذج VoiceFilter-lite الذي يبلغ حجمه 2.2 ميجابايت فقط، مما يجعله مناسبًا لعدد كبير من تطبيقات الجوال خفيفة الوزن.
يستخدم الصوت المسجل بالفعل للمستخدم ويحسن التعرف حتى عند وجود كلام متداخل. تدعي Google أن النموذج يعزز التعرف بنسبة 25% على معدل أخطاء الكلمات (WER)- وهي نسبة تُستخدم لقياس عدد الكلمات التي يتعرف عليها النموذج من الجملة المرجعية
من مزايا هذا النموذج أنك لست بحاجة إلى تضمينه في نموذج التعرف على الكلام. لذلك، إذا لم يتم تسجيل صوت المتحدث مسبقًا، يمكن لتطبيقك تجاوز VoiceFilter-Lite والاستمرار في أوامر التعرف. يساعد هذا أيضًا إذا أراد المستخدم المسجل إصدار بعض الأوامر إلى مساعد رقمي في وضع التصفح المتخفي.
بالنسبة للخطوات التالية، سيحاول الباحثون تطبيق هذا النموذج على لغات أخرى غير الإنجليزية. بالإضافة إلى ذلك ، يريدون تحسين التعرف المباشر على الكلام بحيث يمكن استخدام النموذج لأكثر من التعرف على الأصوات من الخطابات المتداخلة.
للتغلب على هذه التحديات، قام فريق الذكاء الاصطناعي في Google ببناء نموذج جديد خفيف الوزن يسمى VoiceFilter-lite. في عام 2018، كشف الفريق النقاب عن أول نموذج VoiceFilter الذي يستخدم تقنية المطابقة الصوتية للشركة. يتم استخدامه في مساعد Google لتحليل كلامك وصوتك عند التسجيل في إحدى الخدمات.
في كثير من الأحيان التعرف على الأصوات بكفاءة- من الناحية الفنية، وتحقيق نسبة أفضل من المصدر إلى التشويه (SDR)- يأخذ نموذجًا بحجم كبير، وطاقة وحدة المعالجة المركزية البارزة، واستهلاك البطارية.
لهذا السبب توصل فريق Google إلى نموذج VoiceFilter-lite الذي يبلغ حجمه 2.2 ميجابايت فقط، مما يجعله مناسبًا لعدد كبير من تطبيقات الجوال خفيفة الوزن.
يستخدم الصوت المسجل بالفعل للمستخدم ويحسن التعرف حتى عند وجود كلام متداخل. تدعي Google أن النموذج يعزز التعرف بنسبة 25% على معدل أخطاء الكلمات (WER)- وهي نسبة تُستخدم لقياس عدد الكلمات التي يتعرف عليها النموذج من الجملة المرجعية
من مزايا هذا النموذج أنك لست بحاجة إلى تضمينه في نموذج التعرف على الكلام. لذلك، إذا لم يتم تسجيل صوت المتحدث مسبقًا، يمكن لتطبيقك تجاوز VoiceFilter-Lite والاستمرار في أوامر التعرف. يساعد هذا أيضًا إذا أراد المستخدم المسجل إصدار بعض الأوامر إلى مساعد رقمي في وضع التصفح المتخفي.
بالنسبة للخطوات التالية، سيحاول الباحثون تطبيق هذا النموذج على لغات أخرى غير الإنجليزية. بالإضافة إلى ذلك ، يريدون تحسين التعرف المباشر على الكلام بحيث يمكن استخدام النموذج لأكثر من التعرف على الأصوات من الخطابات المتداخلة.