الأخبار

أحدث تقنيات الذكاء الاصطناعي من Nvidia تترجم النص إلى صور أفقية

قامت Nvidia اليوم بتفصيل نظام AI يسمى GauGAN2، والذي خلف نموذج GauGAN الخاص بها، والذي يتيح للمستخدمين إنشاء صور مناظر طبيعية غير موجودة. تم تصميم GauGAN2 من خلال الجمع بين تقنيات مثل رسم الخرائط والتلوين وتحويل النص إلى صورة في أداة واحدة، لإنشاء فن واقعي بمزيج من الكلمات والرسومات.

"مقارنةً بأحدث النماذج خصيصًا لتطبيقات تحويل النص إلى صورة أو تقسيم خريطة إلى صورة، فإن الشبكة العصبية خلف GauGAN2 تنتج تنوعًا أكبر وجودة أعلى للصور"، Isha Salian، عضو في فريق اتصالات شركة Nvidia كتبت في منشور مدونة. "بدلاً من الحاجة إلى استخلاص كل عنصر من عناصر المشهد المتخيل، يمكن للمستخدمين إدخال عبارة مختصرة لتوليد الميزات الرئيسية وموضوع الصورة بسرعة، مثل سلسلة جبال مغطاة بالثلوج. يمكن بعد ذلك تخصيص نقطة البداية هذه بالرسومات لجعل جبل معين أطول أو إضافة شجرتين في المقدمة، أو غيوم في السماء".
 
ولدت الصور من النص
يعمل GauGAN2، الذي يحمل نفس اسم رسام ما بعد الانطباعية Paul Gauguin، على تحسين نظام Nvidia's GauGAN اعتبارًا من عام 2019، والذي تم تدريبه على أكثر من مليون صورة عامة على Flickr. مثل GauGAN، لدى GauGAN2 فهم للعلاقات بين أشياء مثل الثلج والأشجار والمياه والزهور والشجيرات والتلال والجبال، مثل حقيقة أن نوع هطول الأمطار يتغير حسب الموسم.

GauGAN و GauGAN2 هي نوع من الأنظمة المعروفة باسم (GAN) Generative Adversarial Network، والتي تتكون من مولد ومميز. يأخذ المولد عينات- على سبيل المثال، الصور المقترنة بالنص- ويتنبأ بالبيانات (الكلمات) التي تتوافق مع البيانات الأخرى (عناصر الصورة الأفقية). يتم تدريب المولد من خلال محاولة خداع أداة التمييز، والتي تقوم بتقييم ما إذا كانت التنبؤات تبدو واقعية. في حين أن انتقالات GAN رديئة الجودة في البداية، إلا أنها تتحسن بتعليقات أداة التمييز.

على عكس GauGAN، يمكن لـ GauGAN2 - الذي تم تدريبه على 10 ملايين صورة- ترجمة أوصاف اللغة الطبيعية إلى صور المناظر الطبيعية. تؤدي كتابة عبارة مثل "غروب الشمس على الشاطئ" إلى إنشاء المشهد، بينما تؤدي إضافة صفات مثل "غروب الشمس على شاطئ صخري" أو تبديل "غروب الشمس" إلى "بعد الظهر" أو "يوم ممطر" إلى تعديل الصورة على الفور.
باستخدام GauGAN2، يمكن للمستخدمين إنشاء خريطة تجزئة - مخطط عالي المستوى يوضح موقع الكائنات في المشهد. من هناك، يمكنهم التبديل إلى الرسم وتعديل المشهد باستخدام الرسومات التقريبية باستخدام تسميات مثل "السماء" و "الشجرة" و "الصخور" و "النهر" والسماح لفرشاة الرسم الخاصة بالأداة بدمج رسومات الشعار المبتكرة في الصور.
 
العصف الذهني المدعوم بالذكاء الاصطناعي
لا يختلف GauGAN2 عن DALL-E من OpenAI، والذي يمكنه بالمثل إنشاء صور لمطابقة مطالبة النص. أنظمة مثل GauGAN2 و DALL-E هي في الأساس مولدات للأفكار المرئية، مع تطبيقات محتملة في الأفلام والبرامج وألعاب الفيديو والمنتجات والأزياء والتصميم الداخلي.

تدعي Nvidia أن الإصدار الأول من GauGAN قد تم استخدامه بالفعل لإنشاء مفهوم فني للأفلام وألعاب الفيديو. كما هو الحال مع ذلك، تخطط Nvidia لإتاحة كود GauGAN2 على GitHub جنبًا إلى جنب مع عرض توضيحي تفاعلي على Playground، مركز الويب لـ Nvidia's AI وأبحاث التعلم العميق.

أحد أوجه القصور في النماذج التوليدية مثل GauGAN2 هو احتمال التحيز. في حالة DALL-E، استخدم OpenAI نموذجًا خاصًا- CLIP- لتحسين جودة الصورة من خلال إبراز العينات العليا من بين المئات في كل مطالبة تم إنشاؤها بواسطة DALL-E. ولكن وجدت دراسة أن CLIP أخطأت في تصنيف صور الأفراد السود بمعدل أعلى وربطت النساء بوظائف نمطية مثل "مربية" و "مدبرة منزل".
في موادها الصحفية، رفضت Nvidia الإفصاح عن كيفية- أو ما إذا- قامت بتدقيق GauGAN2 بحثًا عن التحيز. "يحتوي النموذج على أكثر من 100 مليون معلمة واستغرق تدريبه أقل من شهر، مع صور تدريبية من مجموعة بيانات مملوكة لصور المناظر الطبيعية. يركز هذا النموذج المحدد فقط على المناظر الطبيعية، وقد قمنا بمراجعته للتأكد من عدم وجود أي شخص في صور التدريب ... GauGAN2 هو مجرد عرض بحثي، أوضح متحدث باسم Nvidia عبر البريد الإلكتروني.

GauGAN هي واحدة من أحدث أدوات الذكاء الاصطناعي الملتوية للواقع من Nvidia، مبتكر تقنية deepfake مثل StyleGAN، والتي يمكنها إنشاء صور واقعية لأشخاص لم يكونوا موجودين من قبل. في سبتمبر 2018، وصف باحثون في الشركة في ورقة أكاديمية نظامًا يمكنه إجراء فحوصات اصطناعية لسرطان الدماغ. في نفس العام، قدمت Nvidia بالتفصيل نموذجًا توليديًا قادرًا على إنشاء بيئات افتراضية باستخدام مقاطع فيديو حقيقية.

كان الظهور الأول لـ GauGAN سابقًا لـ GAN Paint Studio، وهي أداة AI متاحة للجمهور تتيح للمستخدمين تحميل أي صورة وتحرير مظهر المباني والنباتات والتركيبات المصورة. في مكان آخر، تم استخدام نماذج التعلم الآلي التوليدية لإنتاج مقاطع فيديو واقعية من خلال مشاهدة مقاطع YouTube، وإنشاء صور ولوحات قصصية من التسميات التوضيحية للغة الطبيعية، وتحريك ومزامنة حركات الوجه مع مقاطع صوتية تحتوي على كلام بشري.