الأخبار

تواجه Google GPT-4o من خلال Project Astra، وهو وكيل يعمل بالذكاء الاصطناعي يفهم ديناميكيات العالم

اليوم، في مؤتمر مطوري I/O السنوي في ماونتن فيو، أصدرت Google عددًا كبيرًا من الإعلانات التي تركز على الذكاء الاصطناعي، بما في ذلك مشروع Astra - وهو جهد لبناء وكيل عالمي للذكاء الاصطناعي في المستقبل.

تم عرض نسخة مبكرة في المؤتمر، ومع ذلك، تتمثل الفكرة في بناء مساعد ذكاء اصطناعي متعدد الوسائط يعمل كمساعد، ويرى ويفهم ديناميكيات العالم ويستجيب في الوقت الفعلي للمساعدة في المهام/الأسئلة الروتينية. تشبه الفرضية ما عرضته OpenAI أمس باستخدام ChatGPT الذي يعمل بنظام GPT-4o. 
 

ومع ذلك، مع بدء طرح GPT-4o خلال الأسابيع المقبلة لمشتركي ChatGPT Plus، يبدو أن Google تتحرك بشكل أبطأ قليلاً. لا تزال الشركة تعمل على Astra ولم تعلن متى سيتم إطلاق وكيل الذكاء الاصطناعي الكامل الخاص بها. لقد أشارت فقط إلى أن بعض ميزات المشروع ستصل إلى مساعد Gemini الخاص بها في وقت لاحق من هذا العام.

ماذا تتوقع من مشروع Astra؟
بناءً على التطورات التي تم إحرازها في Gemini Pro 1.5 والنماذج الأخرى الخاصة بالمهام، يتيح Project Astra - وهو اختصار للوكيل المستجيب للرؤية المتقدمة والتحدث  Advanced Seeing and Talking Responsive Agent- للمستخدم التفاعل أثناء مشاركة الديناميكيات المعقدة للبيئة المحيطة به. يفهم المساعد ما يراه ويسمعه ويستجيب بإجابات دقيقة في الوقت الفعلي.

كتب ديميس هاسابيس، الرئيس التنفيذي لشركة Google Deepmind، في منشور بالمدونة: "لكي يكون الوكيل مفيدًا حقًا، يحتاج إلى فهم العالم المعقد والديناميكي والاستجابة له تمامًا كما يفعل الأشخاص - وأن يستوعب ويتذكر ما يراه ويسمعه لفهم السياق واتخاذ الإجراء. كما يجب أن تكون استباقية وقابلة للتعليم وشخصية، حتى يتمكن المستخدمون من التحدث إليها بشكل طبيعي ودون تأخير أو تأخير"

في أحد مقاطع الفيديو التجريبية التي أصدرتها Google، والتي تم تسجيلها في لقطة واحدة، تمكن نموذج أولي لعميل Project Astra، الذي يعمل على هاتف Pixel الذكي، من تحديد الأشياء ووصف مكوناتها المحددة وفهم التعليمات البرمجية المكتوبة على السبورة البيضاء. حتى أنها حددت الحي من خلال عدسة الكاميرا وعرضت علامات الذاكرة من خلال إخبار المستخدم بمكان الاحتفاظ بنظاراته.
 

وأظهر الفيديو التجريبي الثاني قدرات مماثلة، بما في ذلك حالة وكيل يقترح تحسينات على بنية النظام، ولكن مع زوج من النظارات التي تتراكب النتائج على رؤية المستخدم في الوقت الحقيقي.

وأشار هاسابيس إلى أنه على الرغم من أن Google حققت تقدمًا كبيرًا في التفكير عبر المدخلات متعددة الوسائط، إلا أن خفض وقت استجابة الوكلاء إلى مستوى المحادثة البشرية كان تحديًا هندسيًا صعبًا. لحل هذه المشكلة، يقوم وكلاء الشركة بمعالجة المعلومات عن طريق تشفير إطارات الفيديو بشكل مستمر، والجمع بين مدخلات الفيديو والكلام في جدول زمني للأحداث، وتخزين هذه المعلومات مؤقتًا لاسترجاعها بكفاءة.

"من خلال الاستفادة من نماذج الكلام الرائدة لدينا، قمنا أيضًا بتحسين طريقة ظهورها، مما يمنح العملاء نطاقًا أوسع من النغمات. وأضاف: "يمكن لهؤلاء الوكلاء فهم السياق الذي يتم استخدامهم فيه بشكل أفضل، والاستجابة بسرعة في المحادثة".

لا يستخدم OpenAI نماذج متعددة لـ GPT-4o. وبدلاً من ذلك، قامت الشركة بتدريب النموذج بشكل شامل عبر النص والرؤية والصوت، مما مكنه من معالجة جميع المدخلات والمخرجات وتقديم الاستجابات بمتوسط 320 مللي ثانية. لم تشارك Google رقمًا محددًا لوقت استجابة Astra ولكن من المتوقع أن ينخفض زمن الاستجابة، إن وجد، مع تقدم العمل. ولا يزال من غير الواضح أيضًا ما إذا كان عملاء Project Astra سيكون لديهم نفس النطاق العاطفي الذي أظهره OpenAI مع GPT-4o.

التوفر Availability
في الوقت الحالي، يعد Astra مجرد عمل مبكر لجوجل على وكيل ذكاء اصطناعي متكامل يمكنه المساعدة في الحياة اليومية، سواء كان ذلك العمل أو بعض المهام الشخصية، مع السياق والذاكرة ذات الصلة. ولم تعلن الشركة متى ستترجم هذه الرؤية بالضبط إلى منتج فعلي، لكنها أكدت أن القدرة على فهم العالم الحقيقي والتفاعل في نفس الوقت ستأتي إلى تطبيق Gemini على أنظمة Android وiOS والويب.

ستضيف Google أولاً Gemini Live إلى التطبيق، مما يسمح للمستخدمين بالمشاركة في محادثات ثنائية الاتجاه مع برنامج الدردشة الآلي. في النهاية، ربما في وقت لاحق من هذا العام، ستتضمن Gemini Live بعضًا من إمكانيات الرؤية الموضحة اليوم، مما يسمح للمستخدمين بفتح كاميراتهم ومناقشة المناطق المحيطة بهم. والجدير بالذكر أن المستخدمين سيتمكنون أيضًا من مقاطعة Gemini أثناء مربعات الحوار هذه، تمامًا مثل ما يفعله OpenAI مع ChatGPT.

وأضاف هاسابيس: "مع مثل هذه التكنولوجيا، من السهل تصور مستقبل حيث يمكن للناس أن يكون لديهم مساعد خبير في الذكاء الاصطناعي إلى جانبهم، من خلال الهاتف أو النظارات".