نريد التفاعل والمشاركة مع العالم من حولنا بطرق تغذيها التكنولوجيا بشكل متزايد.
تحقيقًا لهذه الغاية، أعلنت Google اليوم عن العديد من الميزات التي تعمل بالذكاء الاصطناعي AI-powered في الصوت، والعدسة، والمساعد، والخرائط، والترجمة.
يتضمن ذلك "البحث داخل مشهد search within a scene"، والذي يتم توسيعه على Google Voice Search و Google Lens، ويمكّن المستخدمين من الإشارة إلى كائن أو استخدام الصور الحية المقترنة بالنص لتحديد إمكانات البحث.
قال نيك بيل Nick Bell، الذي يقود منتجات تجربة البحث في Google: "إنه يسمح للأجهزة بفهم العالم بالطريقة التي نتعامل بها، حتى نتمكن بسهولة من العثور على ما نبحث عنه". "إن استطاعة وإمكانيات ذلك مهمة للغاية."
قال Bell، على سبيل المثال، إنه اشترى مؤخرًا صبارًا لمكتبه المنزلي الذي بدأ يذبل - لذلك التقط صورة له وبحث في الوقت نفسه عن تعليمات العناية التي ساعدته على إعادته إلى الحياة.
مع إمكانية أخرى تستند إلى فهم متعدد الوسائط، قد يتصفح المستخدم مدونة طعام ويصادف صورة طبق يريد تجربته. ولكن قبل أن يفعلوا ذلك، يريدون معرفة المكونات والعثور على مطاعم محلية جيدة التصنيف تقدم خدمة التوصيل. قال بيل إن الفهم متعدد الوسائط يدرك تعقيدات الطبق ويجمع ذلك مع النية المعلنة عن طريق مسح ملايين الصور والمراجعات ومساهمات المجتمع.
ستتوفر هذه الوظيفة عالميًا في وقت لاحق من هذا العام باللغة الإنجليزية وسيتم نشرها في لغات إضافية بمرور الوقت.
تعمل Google بالمثل على بناء قدرة المستخدمين على إجراء بحث متعدد لاستخلاص رؤى على الفور حول كائنات متعددة في مشهد ما. لذلك، على سبيل المثال، في محل لبيع الكتب، يمكنهم مسح رف كامل والحصول على معلومات حول جميع الكتب، بالإضافة إلى التوصيات والمراجعات. يعمل هذا على تعزيز رؤية الكمبيوتر ومعالجة اللغة الطبيعية (NLP) natural language processing والمعرفة من الويب والتقنيات الموجودة على الجهاز.
قال Bell إن أنظمة الذكاء الاصطناعي تسمح للبحث بإحداث "قفزات هائلة إلى الأمام".
وأضاف: "لا ينبغي أن يقتصر البحث على كتابة الكلمات في مربع البحث". "نريد مساعدة الأشخاص في العثور على المعلومات أينما كانوا، كيفما يريدون ذلك، استنادًا إلى ما يرونه ويسمعونه ويختبرونه."
تحقيقًا لهذه الغاية، أعلنت Google اليوم عن العديد من الميزات التي تعمل بالذكاء الاصطناعي AI-powered في الصوت، والعدسة، والمساعد، والخرائط، والترجمة.
يتضمن ذلك "البحث داخل مشهد search within a scene"، والذي يتم توسيعه على Google Voice Search و Google Lens، ويمكّن المستخدمين من الإشارة إلى كائن أو استخدام الصور الحية المقترنة بالنص لتحديد إمكانات البحث.
قال نيك بيل Nick Bell، الذي يقود منتجات تجربة البحث في Google: "إنه يسمح للأجهزة بفهم العالم بالطريقة التي نتعامل بها، حتى نتمكن بسهولة من العثور على ما نبحث عنه". "إن استطاعة وإمكانيات ذلك مهمة للغاية."
قال Bell، على سبيل المثال، إنه اشترى مؤخرًا صبارًا لمكتبه المنزلي الذي بدأ يذبل - لذلك التقط صورة له وبحث في الوقت نفسه عن تعليمات العناية التي ساعدته على إعادته إلى الحياة.
مع إمكانية أخرى تستند إلى فهم متعدد الوسائط، قد يتصفح المستخدم مدونة طعام ويصادف صورة طبق يريد تجربته. ولكن قبل أن يفعلوا ذلك، يريدون معرفة المكونات والعثور على مطاعم محلية جيدة التصنيف تقدم خدمة التوصيل. قال بيل إن الفهم متعدد الوسائط يدرك تعقيدات الطبق ويجمع ذلك مع النية المعلنة عن طريق مسح ملايين الصور والمراجعات ومساهمات المجتمع.
ستتوفر هذه الوظيفة عالميًا في وقت لاحق من هذا العام باللغة الإنجليزية وسيتم نشرها في لغات إضافية بمرور الوقت.
تعمل Google بالمثل على بناء قدرة المستخدمين على إجراء بحث متعدد لاستخلاص رؤى على الفور حول كائنات متعددة في مشهد ما. لذلك، على سبيل المثال، في محل لبيع الكتب، يمكنهم مسح رف كامل والحصول على معلومات حول جميع الكتب، بالإضافة إلى التوصيات والمراجعات. يعمل هذا على تعزيز رؤية الكمبيوتر ومعالجة اللغة الطبيعية (NLP) natural language processing والمعرفة من الويب والتقنيات الموجودة على الجهاز.
قال Bell إن أنظمة الذكاء الاصطناعي تسمح للبحث بإحداث "قفزات هائلة إلى الأمام".
وأضاف: "لا ينبغي أن يقتصر البحث على كتابة الكلمات في مربع البحث". "نريد مساعدة الأشخاص في العثور على المعلومات أينما كانوا، كيفما يريدون ذلك، استنادًا إلى ما يرونه ويسمعونه ويختبرونه."
لا مزيد من "Hey Google"
جعلت Google من السهل بدء محادثة مع مساعد Google الخاص بها. مع ميزة "انظر وتحدث look and talk"، لم يعد المستخدمون مضطرون لقول "Hey Google" في كل مرة حتى يدرك النظام أنهم يتحدثون إليه.
قال نينو تاسكا Nino Tasca، مدير مساعد Google: "المساعد الرقمي جيد حقًا بقدر قدرته على فهم المستخدمين". "وبعبارة 'فهم understand'، لا نعني فقط 'understand' الكلمات التي تقولها، بل نعني إجراء محادثات تبدو طبيعية وسهلة".
تعمل Google على تحليل تجارب المحادثة والفروق الدقيقة والعيوب في الكلام البشري. وقد تضمن ذلك استثمارًا كبيرًا في الذكاء الاصطناعي والكلام وفهم اللغة الطبيعية (NLU) وتحويل النص إلى كلام أو Text-To-Speech TTS. وقال تاسكا إن هذا تم تجميعه معًا في ما أطلقت عليه Google اسم "ميكانيكا المحادثة".
بتحليل قدرات الذكاء الاصطناعي، أدرك الباحثون أنهم بحاجة إلى ستة نماذج مختلفة للتعلم الآلي، ومعالجة أكثر من 100 إشارة- بما في ذلك القرب، واتجاه الرأس، واكتشاف النظرة، وصياغة المستخدم، وإشارات المطابقة الصوتية والصوتية - فقط لفهم أنهم يتحدثون إلى مساعد Google. قال تاسكا إن القدرة الجديدة، Nest Hub Max، تسمح للأنظمة بمعالجة المستخدمين والتعرف عليهم لبدء المحادثات بشكل أسهل بكثير.
سيتم إطلاق هذا الأسبوع لنظامي Android و iOS في الأسابيع المقبلة.
هناك ميزة أخرى تم الإعلان عنها اليوم تتعلق بالعبارات السريعة أو العبارات الشائعة جدًا - مثل "اقلبها turn it up" أو "الرد على مكالمة هاتفية answer a phone call" أو إيقاف مؤقت أو غفوة.
قال تاسكا: "من الأسهل والأسرع بكثير أن تقول 'تعيير مؤقتًا لمدة 10 دقائق Set a timer for 10 minutes'، بدلاً من أن تضطر إلى قول 'Hey Google' في كل مرة".
تعتمد المزيد من التحسينات اللغوية الطبيعية على مساعد Google على كيفية تحدث المستخدمين في حياتهم اليومية. المحادثات الحقيقية مليئة بالفروق الدقيقة- على سبيل المثال، يقولون "أممم um" أو توقف مؤقتًا أو إجراء تصحيحات ذاتية. وأشار تاسكا إلى أن هذه الأنواع من القرائن الدقيقة يمكن أن تحدث ذهابًا وإيابًا في أقل من 100 أو 200 مللي ثانية، لكن كل شخص قادر على الفهم والاستجابة وفقًا لذلك.
قال تاسكا: "مع تواصل شخصين، تكون هذه الأشياء طبيعية". "إنهم لا يعيقون حقًا طريقة فهم الناس لبعضهم البعض. نريد أن يكون الأشخاص قادرين على التحدث إلى مساعد Google مثلما يفعلون مع إنسان آخر وفهم المعنى والقدرة على تحقيق النية".
ستتوفر تحسينات اللغة الطبيعية لـ Google Assistant بحلول أوائل عام 2023.
رسم خرائط العالم باستخدام الذكاء الاصطناعي
تعمل الميزات الإضافية الجديدة التي تستفيد من التطورات في مجال الذكاء الاصطناعي ورؤية الكمبيوتر على دمج مليارات الصور من التجوّل الافتراضي مع الصور الجوية لتوفير مناظر غامرة في خرائط Google. سيتم طرح هذه الإمكانات في لوس أنجلوس ولندن ونيويورك وسان فرانسيسكو وطوكيو بحلول نهاية العام، مع المزيد من المدن التالية، وفقًا لميريام دانيال Miriam Daniel، نائبة رئيس خرائط Google.
قالت دانيال: "على مدى السنوات القليلة الماضية، كنا ندفع أنفسنا لإعادة تعريف ما يمكن أن تكون عليه الخريطة باستمرار من خلال إتاحة معلومات جديدة ومفيدة لمليار مستخدم لدينا". "الذكاء الاصطناعي يدعم الجيل القادم من الخبرات لاستكشاف العالم بطريقة جديدة تمامًا".
باستخدام وظائف خرائط Google الجديدة، على سبيل المثال، قد يرغب المستخدم الذي يخطط لرحلة إلى لندن في تحديد أفضل المعالم وخيارات تناول الطعام. عند القيام بذلك، يمكنهم "الارتفاع فعليًا virtually soar" فوق وستمنستر أبي أو بيغ بن واستخدام شريط تمرير الوقت لمعرفة كيف تبدو هذه المعالم في أوقات مختلفة من اليوم. قالت دانييل إنه يمكنهم أيضًا الانزلاق إلى مستوى الشارع لاستكشاف المطاعم والمتاجر في المنطقة.
قالت: "يمكنك اتخاذ قرارات مستنيرة بشأن متى وأين تذهب". "يمكنك النظر إلى الداخل لفهم أجواء المكان بسرعة قبل حجز حجوزاتك".
أطلقت خرائط Google مؤخرًا أيضًا القدرة على تحديد المسارات الصديقة للبيئة والموفرة للوقود. حتى الآن، استخدم الناس هذا للسفر 86 مليار ميل، وتقدر Google أن هذا وفر أكثر من نصف مليون طن متري من انبعاثات الكربون- أي ما يعادل إبعاد 100 ألف سيارة عن الطريق، كما قالت دانيال. هذه القدرة متاحة الآن في الولايات المتحدة وكندا، وسيتم توسيعها إلى أوروبا في وقت لاحق من هذا العام.
قالت دانيال: "كل هذه التجارب تشحنها قوة الذكاء الاصطناعي".
في غضون ذلك، أعلنت Google Translate اليوم أنه قد تم تحديثها لتشمل 24 لغة جديدة، وبذلك يصل إجمالي اللغات المدعومة إلى 133. يتحدث بها أكثر من 300 مليون شخص في جميع أنحاء العالم، وفقًا لإيزاك كاسويل Isaac Caswell، عالم الأبحاث في Google Translate.
وأضاف أنه لا يزال هناك ما يقرب من 6000 لغة غير مدعومة. وأكد مع ذلك، أن اللغات المدعومة حديثًا تمثل خطوة كبيرة إلى الأمام. "لأنه كيف يمكنك التواصل بشكل طبيعي إذا لم تكن باللغة الأكثر راحة لك؟"