يواصل الباحثون إيجاد طرق جديدة للاستفادة من قدرات الذكاء الاصطناعي والتعلم الآلي مع تطور التقنيات. في وقت سابق من هذا الأسبوع، أعلن علماء Google عن إنشاء Transframer، وهو إطار عمل جديد له القدرة على إنشاء مقاطع فيديو قصيرة بناءً على مدخلات الصور الفردية. يمكن أن تزيد التكنولوجيا الجديدة يومًا ما من حلول العرض التقليدية، مما يسمح للمطورين بإنشاء بيئات افتراضية تعتمد على قدرات التعلم الآلي.
يعد اسم الإطار الجديد (وفي بعض النواحي المفهوم) إشارة إلى نموذج آخر قائم على الذكاء الاصطناعي يُعرف باسم Transformer. تم تقديم Transformer في الأصل في عام 2017، وهو عبارة عن بنية شبكة عصبية جديدة لها القدرة على إنشاء نص عن طريق نمذجة ومقارنة الكلمات الأخرى في جملة. تم تضمين النموذج منذ ذلك الحين في أطر التعلم العميق القياسية مثل TensorFlow و PyTorch.
تمامًا كما يستخدم Transformer اللغة للتنبؤ بالمخرجات المحتملة، يستخدم Transframer صور سياق ذات سمات مماثلة جنبًا إلى جنب مع تعليق توضيحي للاستعلام لإنشاء مقاطع فيديو قصيرة. تتحرك مقاطع الفيديو الناتجة حول الصورة المستهدفة وتصور منظورات دقيقة على الرغم من عدم تقديم أي بيانات هندسية في مدخلات الصورة الأصلية.
تعمل التقنية الجديدة، التي تم إثباتها باستخدام منصة DeepMind AI من Google، عن طريق تحليل صورة سياق صورة واحدة للحصول على الأجزاء الرئيسية من بيانات الصورة وإنشاء صور إضافية. خلال هذا التحليل، يحدد النظام إطار الصورة، والذي بدوره يساعد النظام على التنبؤ بمحيط الصورة.
ثم تُستخدم صور السياق للتنبؤ بشكل أكبر بكيفية ظهور الصورة من زوايا مختلفة. يقوم التوقع بنمذجة احتمالية إطارات الصور الإضافية بناءً على البيانات والتعليقات التوضيحية وأي معلومات أخرى متاحة من إطارات السياق.
يعد اسم الإطار الجديد (وفي بعض النواحي المفهوم) إشارة إلى نموذج آخر قائم على الذكاء الاصطناعي يُعرف باسم Transformer. تم تقديم Transformer في الأصل في عام 2017، وهو عبارة عن بنية شبكة عصبية جديدة لها القدرة على إنشاء نص عن طريق نمذجة ومقارنة الكلمات الأخرى في جملة. تم تضمين النموذج منذ ذلك الحين في أطر التعلم العميق القياسية مثل TensorFlow و PyTorch.
تمامًا كما يستخدم Transformer اللغة للتنبؤ بالمخرجات المحتملة، يستخدم Transframer صور سياق ذات سمات مماثلة جنبًا إلى جنب مع تعليق توضيحي للاستعلام لإنشاء مقاطع فيديو قصيرة. تتحرك مقاطع الفيديو الناتجة حول الصورة المستهدفة وتصور منظورات دقيقة على الرغم من عدم تقديم أي بيانات هندسية في مدخلات الصورة الأصلية.
Transframer is a general-purpose generative framework that can handle many image and video tasks in a probabilistic setting. New work shows it excels in video prediction and view synthesis, and can generate 30s videos from a single image: https://t.co/wX3nrrYEEa 1/ pic.twitter.com/gQk6f9nZyg
— DeepMind (@DeepMind) August 15, 2022
تعمل التقنية الجديدة، التي تم إثباتها باستخدام منصة DeepMind AI من Google، عن طريق تحليل صورة سياق صورة واحدة للحصول على الأجزاء الرئيسية من بيانات الصورة وإنشاء صور إضافية. خلال هذا التحليل، يحدد النظام إطار الصورة، والذي بدوره يساعد النظام على التنبؤ بمحيط الصورة.
ثم تُستخدم صور السياق للتنبؤ بشكل أكبر بكيفية ظهور الصورة من زوايا مختلفة. يقوم التوقع بنمذجة احتمالية إطارات الصور الإضافية بناءً على البيانات والتعليقات التوضيحية وأي معلومات أخرى متاحة من إطارات السياق.
يمثل إطار العمل خطوة كبيرة في تقنية الفيديو من خلال توفير القدرة على إنشاء فيديو دقيق بشكل معقول استنادًا إلى مجموعة محدودة جدًا من البيانات. أظهرت مهام Transframer أيضًا نتائج واعدة للغاية في المهام والمعايير الأخرى المتعلقة بالفيديو مثل التجزئة الدلالية، وتصنيف الصور، وتنبؤات التدفق البصري.
يمكن أن تكون الآثار المترتبة على الصناعات القائمة على الفيديو، مثل تطوير الألعاب، ضخمة. تعتمد بيئات تطوير الألعاب الحالية على تقنيات العرض الأساسية مثل التظليل ورسم الخرائط وعمق المجال وتتبع الأشعة. تمتلك تقنيات مثل Transframer القدرة على تقديم مسار تطوير جديد تمامًا للمطورين باستخدام الذكاء الاصطناعي والتعلم الآلي لبناء بيئاتهم مع تقليل الوقت والموارد والجهود اللازمة لإنشائها.
يمكن أن تكون الآثار المترتبة على الصناعات القائمة على الفيديو، مثل تطوير الألعاب، ضخمة. تعتمد بيئات تطوير الألعاب الحالية على تقنيات العرض الأساسية مثل التظليل ورسم الخرائط وعمق المجال وتتبع الأشعة. تمتلك تقنيات مثل Transframer القدرة على تقديم مسار تطوير جديد تمامًا للمطورين باستخدام الذكاء الاصطناعي والتعلم الآلي لبناء بيئاتهم مع تقليل الوقت والموارد والجهود اللازمة لإنشائها.