الأخبار

شركة Meta تريد أن يبدو المشهد الافتراضي وكأنه واقع حقيقي

تعمل Meta ومجموعة من الباحثين من جامعة تكساس في أوستن (UT Austin) على جلب صوت واقعي إلى metaverse.

كما أوضحت كريستين جارومان، مديرة الأبحاث في Meta AI، هناك ما هو أكثر من الواقع المعزز والافتراضي (AR و VR، على التوالي) من مجرد المرئيات. يلعب الصوت دورًا مهمًا للغاية في جعل العالم يشعر بأنه حي. يقول Garuman: "يتشكل الصوت حسب البيئة التي يتواجد فيها". هناك العديد من العوامل التي تؤثر في كيفية تصرف الصوت مثل هندسة الغرفة، وما يوجد في الغرفة المذكورة، ومدى بُعد الشخص عن المصدر.

لتحقيق ذلك، تتمثل خطة Meta في استخدام نظارات AR لتسجيل الصوت والفيديو من مكان واحد، ثم استخدام مجموعة من ثلاثة نماذج AI، وتحويل التسجيل وتنظيفه حتى تشعر وكأنه يحدث أمامك عند إعادة تشغيله. فى المنزل. ستأخذ أنظمة الذكاء الاصطناعي في الحسبان الغرفة التي تتواجد بها حتى تتمكن من مطابقة البيئة.

بالنظر إلى المشاريع، يبدو أن Meta تركز على نظارات الواقع المعزز. تتضمن خطة Meta لسماعات الرأس VR تكرار مشاهد وأصوات البيئة، مثل حفلة موسيقية، بحيث تشعر وكأنك موجود هناك شخصيًا.

سألنا Meta كيف يمكن للناس الاستماع إلى الصوت المحسن. هل سيحتاج الناس إلى زوج من سماعات الرأس للاستماع أم أنه سيأتي من سماعة الرأس؟ لم نحصل على رد.

سألنا أيضًا Meta كيف يمكن للمطورين الحصول على نماذج الذكاء الاصطناعي هذه. لقد تم جعلها مفتوحة المصدر حتى يتمكن مطورو الطرف الثالث من العمل على التقنية، لكن Meta لم تقدم أي تفاصيل أخرى.
 
تحولت بواسطة الذكاء الاصطناعي
السؤال هو كيف يمكن لـ Meta تسجيل الصوت على زوج من نظارات AR وجعلها تعكس إعدادًا جديدًا.

يُعرف الحل الأول باسم AViTAR وهو "نموذج المطابقة الصوتية المرئية Visual Acoustic Matching model". هذا هو الذكاء الاصطناعي الذي يحول الصوت ليلائم بيئة جديدة. تقدم Meta مثالاً على أم تسجل حفلة رقص لطفلها في قاعة مع زوج من نظارات الواقع المعزز.

يدعي أحد الباحثين أن الأم المعنية يمكنها أخذ هذا التسجيل وتشغيله في المنزل حيث يقوم الذكاء الاصطناعي بتحويل الصوت. ستقوم بمسح البيئة، وتأخذ في الاعتبار أي عوائق في الغرفة، والحصول على صوت الحفل كما يحدث أمامها مباشرةً بنفس النظارات. يقول الباحث أن الصوت سيأتي من النظارات.

للمساعدة في تنظيف الصوت، يوجد إلغاء صوت مرئي Visually-Informed Dereverberation. في الأساس، يزيل الصدى المشتت من المقطع. المثال المذكور هو تسجيل حفلة كمان في محطة قطار، ونقلها إلى المنزل، وجعل الذكاء الاصطناعي ينظف المقطع حتى لا تسمع شيئًا سوى الموسيقى.

آخر نموذج AI هو VisualVoice، والذي يستخدم مجموعة من الإشارات المرئية والصوتية لفصل الأصوات عن الضوضاء الأخرى. تخيل تسجيل فيديو لشخصين يتجادلان. سيعزل هذا الذكاء الاصطناعي صوتًا واحدًا حتى تتمكن من فهمه أثناء إسكات أي شيء آخر. يشرح Meta أن الإشارات المرئية مهمة لأن الذكاء الاصطناعي يحتاج إلى معرفة من يتحدث من أجل فهم بعض الفروق الدقيقة ومعرفة من يتحدث.

فيما يتعلق بالمرئيات، تذكر Meta أنهم يخططون لجلب إشارات الفيديو وغيرها من الإشارات لزيادة تحسين الصوت الذي يحركه الذكاء الاصطناعي. نظرًا لأن هذه التكنولوجيا لا تزال في مرحلة مبكرة من التطوير، فمن غير المعروف ما إذا كانت Meta ستجلب أنظمة الذكاء الاصطناعي هذه إلى سماعة رأس Quest القريبة منك ومتى.