الأخبار

ما هي زيادة البيانات؟

يمكن لنماذج التعلم الآلي أداء أشياء رائعة - إذا كان لديها بيانات تدريب كافية. لسوء الحظ، بالنسبة للعديد من التطبيقات، لا يزال الوصول إلى البيانات عالية الجودة يمثل حاجزًا.

أحد الحلول لهذه المشكلة هو "زيادة البيانات"، وهي تقنية تولد أمثلة تدريبية جديدة من الأمثلة الموجودة. تعد زيادة البيانات طريقة منخفضة التكلفة وفعالة لتحسين أداء ودقة نماذج التعلم الآلي في البيئات المقيدة بالبيانات.
 
تركيب نماذج التعلم الآلي
عندما يتم تدريب نماذج التعلم الآلي على أمثلة محدودة، فإنها تميل إلى "التجهيز الزائد". يحدث التجاوز عندما يعمل نموذج ML بدقة على أمثلة التدريب الخاصة به ولكنه يفشل في التعميم على البيانات غير المرئية.

هناك عدة طرق لتجنب الإفراط في التعلم الآلي، مثل اختيار خوارزميات مختلفة، وتعديل بنية النموذج، وضبط المعلمات الفائقة. ولكن في النهاية، فإن العلاج الرئيسي للإفراط في التجهيز هو إضافة المزيد من البيانات عالية الجودة إلى مجموعة بيانات التدريب.

على سبيل المثال، ضع في اعتبارك الشبكة العصبية التلافيفية (CNN)، وهي نوع من بنية التعلم الآلي مفيدة بشكل خاص لمهام تصنيف الصور. بدون مجموعة كبيرة ومتنوعة من الأمثلة التدريبية، سينتهي الأمر بشبكة CNN لتصنيف الصور بشكل خاطئ في العالم الحقيقي. من ناحية أخرى، إذا تم تدريب CNN على صور أشياء من زوايا مختلفة وتحت ظروف إضاءة مختلفة، فستصبح أكثر قوة في التعرف عليها في العالم الحقيقي.

ومع ذلك، فإن جمع أمثلة تدريبية إضافية يمكن أن يكون مكلفًا أو يستغرق وقتًا طويلاً أو مستحيلًا في بعض الأحيان. يصبح هذا التحدي أكثر صعوبة في تطبيقات التعلم الخاضعة للإشراف حيث يجب تسمية أمثلة التدريب من قبل خبراء بشريين.
 
زيادة البيانات
تتمثل إحدى طرق زيادة تنوع مجموعة بيانات التدريب في إنشاء نسخ من البيانات الموجودة وإجراء تعديلات صغيرة عليها. وهذا ما يسمى "زيادة البيانات".

على سبيل المثال، لنفترض أن لديك عشرين صورة للبط في مجموعة بيانات تصنيف الصور الخاصة بك. من خلال إنشاء نسخ من صور البط الخاصة بك وتقليبها أفقيًا، تكون قد ضاعفت من أمثلة التدريب لفصل "البطة". يمكنك استخدام تحويلات أخرى مثل التدوير والقص والتكبير والترجمة. يمكنك أيضًا دمج التحولات لتوسيع مجموعتك من أمثلة التدريب الفريدة.

لا يلزم أن تقتصر زيادة البيانات على المعالجة الهندسية. يمكن أن تساعد إضافة التشويش وتغيير إعدادات اللون والتأثيرات الأخرى مثل عوامل التعتيم والتوضيح في إعادة استخدام أمثلة التدريب الحالية كبيانات جديدة.

تعد زيادة البيانات مفيدة بشكل خاص للتعلم الخاضع للإشراف لأن لديك بالفعل التسميات ولست بحاجة إلى بذل جهد إضافي للتعليق على الأمثلة الجديدة. تعد زيادة البيانات مفيدة أيضًا لفئات أخرى من خوارزميات التعلم الآلي مثل التعلم غير الخاضع للإشراف والتعلم التباين والنماذج التوليدية.

أصبحت زيادة البيانات ممارسة قياسية لتدريب نماذج التعلم الآلي لتطبيقات رؤية الكمبيوتر. تتمتع مكتبات برمجة التعلم الآلي والتعلم العميق الشائعة بوظائف سهلة الاستخدام لدمج زيادة البيانات في خط تدريب تعلم الآلة.

لا تقتصر زيادة البيانات على الصور ويمكن تطبيقها على أنواع أخرى من البيانات. بالنسبة لمجموعات البيانات النصية، يمكن استبدال الأسماء والأفعال بمرادفاتها. في البيانات الصوتية، يمكن تعديل أمثلة التدريب عن طريق إضافة ضوضاء أو تغيير سرعة التشغيل.
 
حدود زيادة البيانات
إن زيادة البيانات ليست رصاصة فضية لحل جميع مشاكل البيانات الخاصة بك. يمكنك التفكير في الأمر على أنه معزز مجاني للأداء لنماذج ML الخاصة بك. بناءً على التطبيق المستهدف، ما زلت بحاجة إلى مجموعة بيانات تدريب كبيرة إلى حد ما مع أمثلة كافية.

في بعض التطبيقات، قد تكون بيانات التدريب محدودة للغاية بحيث لا تساعد زيادة البيانات. في هذه الحالات، يجب عليك جمع المزيد من البيانات حتى تصل إلى الحد الأدنى قبل أن تتمكن من استخدام زيادة البيانات. في بعض الأحيان، يمكنك استخدام نقل التعلم، حيث تقوم بتدريب نموذج ML على مجموعة بيانات عامة (على سبيل المثال، ImageNet) ثم إعادة توظيفه عن طريق ضبط طبقاته العليا على البيانات المحدودة التي لديك لتطبيقك المستهدف.

لا تعالج زيادة البيانات أيضًا مشكلات أخرى مثل التحيزات الموجودة في مجموعة بيانات التدريب. تحتاج عملية زيادة البيانات أيضًا إلى التعديل لمعالجة المشكلات المحتملة الأخرى، مثل عدم توازن الفئة.

إذا تم استخدامها بحكمة، يمكن أن تكون إدارة البيانات أداة قوية في صندوق أدوات مهندس التعلم الآلي.