إذا تمكنت من التعرف على كلب عن طريق البصر، فيمكنك على الأرجح التعرف على الكلب عندما يتم وصفه لك بالكلمات. ليس الأمر
كذلك بالنسبة للذكاء الاصطناعيArtificial Intelligence اليوم. أصبحت الشبكات العصبية العميقة Deep neural networks جيدة جدًا في التعرف على الأشياء في الصور والتحدث بلغة طبيعية، ولكن ليس في نفس الوقت: هناك نماذج ذكاء اصطناعي تتفوق في أحدهما أو الآخر، ولكن ليس كلاهما.
جزء من المشكلة هو أن هذه النماذج تتعلم مهارات مختلفة باستخدام تقنيات مختلفة. هذه عقبة رئيسية أمام تطوير المزيد من الذكاء الاصطناعي للأغراض العامة، آلات يمكنها القيام بمهام متعددة والتكيف. وهذا يعني أيضًا أن التقدم في التعلم العميق لمهارة واحدة لا ينتقل غالبًا إلى مهارة أخرى.
يريد فريق في Meta AI (سابقًا Facebook AI Research) تغيير ذلك. طور الباحثون خوارزمية واحدة يمكن استخدامها لتدريب الشبكة العصبية على التعرف على الصور أو النص أو الكلام. لا تعمل الخوارزمية، التي تسمى Data2vec، على توحيد عملية التعلم فحسب، بل تؤدي على الأقل إلى جانب التقنيات الموجودة في المهارات الثلاث جميعها. يقول Michael Auli، الباحث في Meta AI: "نأمل أن تغير الطريقة التي يفكر بها الناس بشأن القيام بهذا النوع من العمل".
يعتمد البحث على نهج يُعرف باسم التعلم الذاتي Self-supervised learning، حيث تتعلم الشبكات العصبية تحديد الأنماط في مجموعات البيانات من تلقاء نفسها، دون الاسترشاد بالأمثلة المصنفة. هذه هي الطريقة التي تتعلم بها النماذج اللغوية الكبيرة مثل GPT-3 من مجموعات كبيرة من النصوص غير المصنفة المأخوذة من الإنترنت، وقد دفعت العديد من التطورات الحديثة في التعلم العميق.
كان Auli وزملاؤه في Meta AI يعملون على التعلم بالإشراف الذاتي للتعرف على الكلام. لكن عندما نظروا إلى ما كان يفعله الباحثون الآخرون بالتعلم الذاتي للصور والنصوص، أدركوا أنهم جميعًا يستخدمون تقنيات مختلفة لتحقيق نفس الأهداف.
يستخدم Data2vec شبكتين عصبيتين، طالب ومعلم. أولاً، يتم تدريب شبكة المعلمين على الصور أو النصوص أو الكلام بالطريقة المعتادة، وتعلم تمثيل داخلي لهذه البيانات يسمح لها بالتنبؤ بما تراه عند عرض أمثلة جديدة. عندما يتم عرض صورة لكلب، فإنه يتعرف عليها ككلب.
والمثير هو أن شبكة الطلاب يتم تدريبها بعد ذلك على التنبؤ بالتمثيلات الداخلية للمعلم. بمعنى آخر، يتم تدريبه على عدم تخمين أنه ينظر إلى صورة كلب عند عرضه على كلب، ولكن لتخمين ما يراه المعلم عند عرض هذه الصورة.
نظرًا لأن الطالب لا يحاول تخمين الصورة أو الجملة الفعلية، ولكن بدلاً من ذلك، تمثيل المعلم لتلك الصورة أو الجملة، لا تحتاج الخوارزمية إلى أن تكون مخصصة لنوع معين من المدخلات.
تعد Data2vec جزءًا من اتجاه كبير في الذكاء الاصطناعي نحو النماذج التي يمكنها تعلم فهم العالم بأكثر من طريقة. يقول Ani Kembhavi من معهد ألين للذكاء الاصطناعي في سياتل Allen Institute for AI in Seattle، والذي يعمل على الرؤية واللغة: "إنها فكرة ذكية". "إنه تقدم واعد عندما يتعلق الأمر بأنظمة التعلم المعممة generalized systems for learning".
التحذير المهم هو أنه على الرغم من أنه يمكن استخدام نفس خوارزمية التعلم لمهارات مختلفة، إلا أنها يمكن أن تتعلم مهارة واحدة فقط في كل مرة. بمجرد أن يتعلم التعرف على الصور، يجب أن يبدأ من الصفر لتعلم التعرف على الكلام. يعد إعطاء مهارات متعددة للذكاء الاصطناعي في وقت واحد أمرًا صعبًا، ولكن هذا شيء يريد فريق Meta AI النظر إليه بعد ذلك.
تفاجأ الباحثون عندما اكتشفوا أن أسلوبهم في الواقع كان أداؤه أفضل من التقنيات الحالية في التعرف على الصور والكلام، وأداء بالإضافة إلى نماذج لغوية رائدة في فهم النص.
يحلم مارك زوكربيرج Mark Zuckerberg بالفعل بتطبيقات metaverse المحتملة. كتب على Facebook اليوم: "سيتم دمج كل هذا في النهاية في نظارات الواقع المعزز مع مساعد AI". "يمكن أن يساعدك في طهي العشاء، وملاحظة ما إذا كنت تفتقد أحد المكونات، مما يدفعك إلى خفض الحرارة، أو القيام بمهام أكثر تعقيدًا".
بالنسبة لـ Auli، فإن الهدف الرئيسي هو أنه يجب على الباحثين الخروج من صوامعهم. يقول: "مرحبًا، لست بحاجة إلى التركيز على شيء واحد". "إذا كانت لديك فكرة جيدة، فقد تساعدك بالفعل في جميع المجالات".
كذلك بالنسبة للذكاء الاصطناعيArtificial Intelligence اليوم. أصبحت الشبكات العصبية العميقة Deep neural networks جيدة جدًا في التعرف على الأشياء في الصور والتحدث بلغة طبيعية، ولكن ليس في نفس الوقت: هناك نماذج ذكاء اصطناعي تتفوق في أحدهما أو الآخر، ولكن ليس كلاهما.
جزء من المشكلة هو أن هذه النماذج تتعلم مهارات مختلفة باستخدام تقنيات مختلفة. هذه عقبة رئيسية أمام تطوير المزيد من الذكاء الاصطناعي للأغراض العامة، آلات يمكنها القيام بمهام متعددة والتكيف. وهذا يعني أيضًا أن التقدم في التعلم العميق لمهارة واحدة لا ينتقل غالبًا إلى مهارة أخرى.
يريد فريق في Meta AI (سابقًا Facebook AI Research) تغيير ذلك. طور الباحثون خوارزمية واحدة يمكن استخدامها لتدريب الشبكة العصبية على التعرف على الصور أو النص أو الكلام. لا تعمل الخوارزمية، التي تسمى Data2vec، على توحيد عملية التعلم فحسب، بل تؤدي على الأقل إلى جانب التقنيات الموجودة في المهارات الثلاث جميعها. يقول Michael Auli، الباحث في Meta AI: "نأمل أن تغير الطريقة التي يفكر بها الناس بشأن القيام بهذا النوع من العمل".
يعتمد البحث على نهج يُعرف باسم التعلم الذاتي Self-supervised learning، حيث تتعلم الشبكات العصبية تحديد الأنماط في مجموعات البيانات من تلقاء نفسها، دون الاسترشاد بالأمثلة المصنفة. هذه هي الطريقة التي تتعلم بها النماذج اللغوية الكبيرة مثل GPT-3 من مجموعات كبيرة من النصوص غير المصنفة المأخوذة من الإنترنت، وقد دفعت العديد من التطورات الحديثة في التعلم العميق.
كان Auli وزملاؤه في Meta AI يعملون على التعلم بالإشراف الذاتي للتعرف على الكلام. لكن عندما نظروا إلى ما كان يفعله الباحثون الآخرون بالتعلم الذاتي للصور والنصوص، أدركوا أنهم جميعًا يستخدمون تقنيات مختلفة لتحقيق نفس الأهداف.
يستخدم Data2vec شبكتين عصبيتين، طالب ومعلم. أولاً، يتم تدريب شبكة المعلمين على الصور أو النصوص أو الكلام بالطريقة المعتادة، وتعلم تمثيل داخلي لهذه البيانات يسمح لها بالتنبؤ بما تراه عند عرض أمثلة جديدة. عندما يتم عرض صورة لكلب، فإنه يتعرف عليها ككلب.
والمثير هو أن شبكة الطلاب يتم تدريبها بعد ذلك على التنبؤ بالتمثيلات الداخلية للمعلم. بمعنى آخر، يتم تدريبه على عدم تخمين أنه ينظر إلى صورة كلب عند عرضه على كلب، ولكن لتخمين ما يراه المعلم عند عرض هذه الصورة.
نظرًا لأن الطالب لا يحاول تخمين الصورة أو الجملة الفعلية، ولكن بدلاً من ذلك، تمثيل المعلم لتلك الصورة أو الجملة، لا تحتاج الخوارزمية إلى أن تكون مخصصة لنوع معين من المدخلات.
تعد Data2vec جزءًا من اتجاه كبير في الذكاء الاصطناعي نحو النماذج التي يمكنها تعلم فهم العالم بأكثر من طريقة. يقول Ani Kembhavi من معهد ألين للذكاء الاصطناعي في سياتل Allen Institute for AI in Seattle، والذي يعمل على الرؤية واللغة: "إنها فكرة ذكية". "إنه تقدم واعد عندما يتعلق الأمر بأنظمة التعلم المعممة generalized systems for learning".
التحذير المهم هو أنه على الرغم من أنه يمكن استخدام نفس خوارزمية التعلم لمهارات مختلفة، إلا أنها يمكن أن تتعلم مهارة واحدة فقط في كل مرة. بمجرد أن يتعلم التعرف على الصور، يجب أن يبدأ من الصفر لتعلم التعرف على الكلام. يعد إعطاء مهارات متعددة للذكاء الاصطناعي في وقت واحد أمرًا صعبًا، ولكن هذا شيء يريد فريق Meta AI النظر إليه بعد ذلك.
تفاجأ الباحثون عندما اكتشفوا أن أسلوبهم في الواقع كان أداؤه أفضل من التقنيات الحالية في التعرف على الصور والكلام، وأداء بالإضافة إلى نماذج لغوية رائدة في فهم النص.
يحلم مارك زوكربيرج Mark Zuckerberg بالفعل بتطبيقات metaverse المحتملة. كتب على Facebook اليوم: "سيتم دمج كل هذا في النهاية في نظارات الواقع المعزز مع مساعد AI". "يمكن أن يساعدك في طهي العشاء، وملاحظة ما إذا كنت تفتقد أحد المكونات، مما يدفعك إلى خفض الحرارة، أو القيام بمهام أكثر تعقيدًا".
بالنسبة لـ Auli، فإن الهدف الرئيسي هو أنه يجب على الباحثين الخروج من صوامعهم. يقول: "مرحبًا، لست بحاجة إلى التركيز على شيء واحد". "إذا كانت لديك فكرة جيدة، فقد تساعدك بالفعل في جميع المجالات".