الأخبار

لماذا تظل البيانات التحدي الأكبر لمشاريع التعلم الآلي

تعد البيانات عالية الجودة في صميم نجاح الذكاء الاصطناعي للمؤسسات (AI) artificial intelligence. وبناءً عليه، يظل المصدر الرئيسي للتحديات التي تواجه الشركات التي ترغب في تطبيق التعلم الآلي (ML) machine learning في تطبيقاتها وعملياتها.

حققت الصناعة تقدمًا مذهلاً في مساعدة الشركات على التغلب على العوائق التي تحول دون الحصول على البيانات وإعدادها، وفقًا لتقرير حالة الذكاء الاصطناعي الأخير الصادر عن Appen. ولكن لا يزال هناك الكثير مما يتعين القيام به على مستويات مختلفة، بما في ذلك الهيكل التنظيمي وسياسات الشركة.

تكاليف البيانات
يمكن تقسيم دورة حياة الذكاء الاصطناعي للمؤسسة إلى أربع مراحل: مصادر البيانات، وإعداد البيانات، واختبار النماذج ونشرها، وتقييم النموذج.

ساعدت التطورات في الحوسبة وأدوات التعلم الآلي في أتمتة المهام وتسريعها مثل التدريب واختبار نماذج تعلم الآلة المختلفة. تتيح منصات الحوسبة السحابية تدريب واختبار العشرات من النماذج المختلفة ذات الأحجام والهياكل المختلفة في وقت واحد. ولكن مع نمو نماذج التعلم الآلي من حيث العدد والحجم، فإنها ستتطلب المزيد من بيانات التدريب.

لسوء الحظ، لا يزال الحصول على بيانات التدريب والتعليق التوضيحي يتطلب جهدًا يدويًا كبيرًا وهو خاص بالتطبيق إلى حد كبير. وفقًا لتقرير Appen، "نقص البيانات الكافية لحالة استخدام محددة، وتقنيات التعلم الآلي الجديدة التي تتطلب كميات أكبر من البيانات، أو أن الفرق ليس لديها العمليات الصحيحة في المكان المناسب للحصول على البيانات التي يحتاجون إليها بسهولة وكفاءة".

وقال سوجاثا ساجراجو، كبير مسؤولي المنتجات في شركة Appen: "مطلوب بيانات تدريب عالية الجودة لأداء نموذج دقيق ؛ ومجموعات البيانات الكبيرة والشاملة باهظة الثمن"، "ومع ذلك، من المهم ملاحظة أن بيانات الذكاء الاصطناعي القيّمة يمكن أن تزيد من فرص انتقال مشروعك من التجربة إلى الإنتاج ؛ لذلك ، هناك حاجة إلى المصاريف".

يمكن لفرق تعلم الآلة أن تبدأ بمجموعات بيانات مسماة مسبقًا، لكنهم سيحتاجون في النهاية إلى جمع بياناتهم المخصصة وتصنيفها لتوسيع نطاق جهودهم. اعتمادًا على التطبيق، يمكن أن تصبح الملصقات باهظة الثمن وتتطلب عمالة مكثفة.

في كثير من الحالات، تمتلك الشركات بيانات كافية، لكن لا يمكنها التعامل مع مشكلات الجودة. البيانات المتحيزة أو الخاطئة أو غير المتسقة أو غير الكاملة تقلل من جودة نماذج ML، والتي بدورها تضر بعائد الاستثمار لمبادرات الذكاء الاصطناعي.

قال ساجراجو: "إذا قمت بتدريب نماذج تعلم الآلة باستخدام بيانات سيئة، فإن تنبؤات النماذج ستكون غير دقيقة". "لضمان عمل الذكاء الاصطناعي الخاص بهم بشكل جيد في سيناريوهات العالم الحقيقي، يجب أن يكون لدى الفرق مزيج من مجموعات البيانات عالية الجودة والبيانات الاصطناعية وتقييم الإنسان في الحلقة في مجموعة التدريب الخاصة بهم".

الفجوة بين علماء البيانات وقادة الأعمال
ووفقًا لـ Appen، فإن قادة الأعمال أقل احتمالية بكثير من الموظفين التقنيين للنظر في مصادر البيانات وإعدادها على أنها التحديات الرئيسية لمبادرات الذكاء الاصطناعي الخاصة بهم. "لا تزال هناك فجوات بين التقنيين وقادة الأعمال عند فهم أكبر الاختناقات في تنفيذ البيانات لدورة حياة الذكاء الاصطناعي. وهذا يؤدي إلى اختلال في الأولويات والميزانية داخل المنظمة ".

قال ساجراجو: "ما نعرفه هو أن بعض أكبر الاختناقات التي تواجه مبادرات الذكاء الاصطناعي تكمن في نقص الموارد التقنية والتأييد التنفيذي". "إذا ألقيت نظرة على هذه الفئات، فسترى أن علماء البيانات ومهندسي التعلم الآلي ومطوري البرامج والمديرين التنفيذيين موزعون في مناطق مختلفة، لذلك ليس من الصعب تخيل عدم وجود إستراتيجية متوافقة بسبب الأولويات المتضاربة بين الفرق المختلفة داخل المنظمة".

يجعل تنوع الأشخاص والأدوار المشاركة في مبادرات الذكاء الاصطناعي من الصعب تحقيق هذا التوافق. من المطورين الذين يديرون البيانات، إلى علماء البيانات الذين يتعاملون مع القضايا على الأرض، والمديرين التنفيذيين الذين يتخذون قرارات تجارية استراتيجية، جميعهم لديهم أهداف مختلفة في الاعتبار، وبالتالي أولويات وميزانيات مختلفة.

ومع ذلك، يرى ساجراجو أن الفجوة تضيق ببطء عامًا بعد عام عندما يتعلق الأمر بفهم تحديات الذكاء الاصطناعي. وذلك لأن المؤسسات تدرك بشكل أفضل أهمية البيانات عالية الجودة لنجاح مبادرات الذكاء الاصطناعي.

قال ساجيراجو: "إن التركيز على مدى أهمية البيانات - خاصة البيانات عالية الجودة التي تتطابق مع سيناريوهات التطبيق - هو نجاح نموذج الذكاء الاصطناعي الذي جمع الفرق معًا لحل هذه التحديات".

اتجاهات واعدة في التعلم الآلي
تحديات البيانات ليست جديدة في مجال ML التطبيقي. ولكن مع نمو نماذج تعلم الآلة وتوافر البيانات بكثرة، هناك حاجة لإيجاد حلول قابلة للتطوير لتجميع بيانات تدريب عالية الجودة.

لحسن الحظ، تساعد بعض الاتجاهات الشركات في التغلب على بعض هذه التحديات، ويظهر تقرير الذكاء الاصطناعي لشركة Appen أن متوسط ​​الوقت الذي يقضيه في إدارة البيانات وإعدادها يتجه نحو الانخفاض.

أحد الأمثلة على ذلك هو وضع العلامات الآلي. على سبيل المثال، تتطلب نماذج اكتشاف الكائنات تحديد المربعات المحيطة لكل كائن في أمثلة التدريب، الأمر الذي يتطلب جهدًا يدويًا كبيرًا. تستخدم أدوات وضع العلامات الآلية وشبه الآلية نموذج التعلم العميق لمعالجة أمثلة التدريب والتنبؤ بالمربعات المحيطة. الملصقات الآلية ليست مثالية، ويجب على المصمم البشري مراجعتها وتعديلها، لكنها تسرع العملية بشكل كبير. بالإضافة إلى ذلك، يمكن أن يتم تدريب وتحسين نظام الملصقات الآلي بشكل أكبر حيث يتلقى تعليقات من واضعي الملصقات البشرية.

قال ساجيراجو: "في حين أن العديد من الفرق تبدأ بوضع العلامات يدويًا على مجموعات البيانات الخاصة بها، فإن المزيد يتجه إلى طرق توفير الوقت لأتمتة العملية جزئيًا".

في الوقت نفسه، هناك سوق متنامٍ للبيانات التركيبية. تستخدم الشركات البيانات التي تم إنشاؤها بشكل مصطنع لاستكمال البيانات التي تجمعها من العالم الحقيقي. تعتبر البيانات التركيبية مفيدة بشكل خاص في التطبيقات التي يكون فيها الحصول على بيانات العالم الحقيقي مكلفًا أو خطيرًا. ومن الأمثلة على ذلك شركات السيارات ذاتية القيادة، التي تواجه تحديات تنظيمية وأمنية وقانونية في الحصول على بيانات من طرق حقيقية.

قال ساجراجو: "تتطلب السيارات ذاتية القيادة كميات هائلة من البيانات لتكون آمنة وجاهزة لأي شيء بمجرد أن تصل إلى الطريق، ولكن بعض البيانات الأكثر تعقيدًا ليست متاحة بسهولة". "تسمح البيانات التركيبية للممارسين بتفسير الحالات الخطيرة أو السيناريوهات الخطيرة مثل الحوادث وعبور المشاة ومركبات الطوارئ لتدريب نماذج الذكاء الاصطناعي الخاصة بهم بشكل فعال. يمكن أن تنشئ البيانات التركيبية مثيلات لتدريب البيانات عندما لا توجد بيانات كافية من مصادر بشرية. إنه أمر بالغ الأهمية في سد الفجوات".

في الوقت نفسه، يساعد تطور سوق MLops الشركات على مواجهة العديد من التحديات في خط أنابيب التعلم الآلي، بما في ذلك تصنيف مجموعات البيانات وإصدارها ؛ التدريب والاختبار والمقارنة بين نماذج ML المختلفة ؛ نشر النماذج على نطاق واسع وتتبع أدائها ؛ وجمع بيانات جديدة وتحديث النماذج بمرور الوقت.

ولكن نظرًا لأن تعلم الآلة يلعب دورًا أكبر في المؤسسات، فإن الشيء الوحيد الذي سيصبح أكثر أهمية هو التحكم البشري.

قال ساجيراجو: "تقييمات الإنسان في الحلقة (HITL) Human-in-the-loop ضرورية لتقديم معلومات دقيقة وذات صلة وتجنب التحيز". "على الرغم مما يعتقده الكثيرون حول احتلال البشر للمقعد الخلفي في التدريب على الذكاء الاصطناعي، أعتقد أننا سنرى اتجاهًا نحو المزيد من تقييمات HITL في محاولة لتمكين الذكاء الاصطناعي المسؤول، ولدينا المزيد من الشفافية حول ما تضعه المنظمات في نماذجها لضمان النماذج أداءً جيدًا في العالم الحقيقي".