الأخبار

البيانات والذكاء الاصطناعي هي مفاتيح التحول الرقمي- كيف يمكنك ضمان سلامتها؟


إذا كانت البيانات Data هي الزيت Oil الجديد للاقتصاد الرقمي، فإن الذكاء الاصطناعي (AI) Artificial Intelligence هو المحرك البخاري Steam engine. تمتلك الشركات التي تستفيد من قوة البيانات والذكاء الاصطناعي مفتاح الابتكار- تمامًا كما غذت محركات النفط والبخار النقل، وفي النهاية الثورة الصناعية.

في عام 2022، مهدت البيانات والذكاء الاصطناعي الطريق للفصل التالي من الثورة الرقمية، مما زاد من قوة الشركات في جميع أنحاء العالم. كيف يمكن للشركات ضمان أن المسؤولية والأخلاق هي جوهر هذه التقنيات الثورية؟
 
تحديد المسؤولية في البيانات والذكاء الاصطناعي
يمكن القول إن أحد أكبر العوامل المساهمة في التحيزات في الذكاء الاصطناعي هو عدم وجود تنوع بين المعلقين ومصممي البيانات، الذين يقومون بعد ذلك بتدريب النماذج التي يتعلم منها الذكاء الاصطناعي في النهاية.

يقول Saiph Savage، الأستاذ المساعد ومدير مختبر Civic AI في كلية خوري Khoury College لعلوم الكمبيوتر في جامعة نورث إيسترن، إن الذكاء الاصطناعي المسؤول يبدأ بالعمل الأساسي الشامل منذ البداية.

قال Savage خلال مؤتمر VentureBeat Data Summit، "من الأشياء المهمة التي يجب التفكير فيها، من ناحية، القدرة على الحصول على أنواع مختلفة من القوى العاملة لإجراء تصنيف البيانات لشركتك". "لماذا؟ لنفترض أنك تقوم بتعيين عمال من نيويورك فقط. من المحتمل جدًا أن يكون للعمال من نيويورك طرق مختلفة لتصنيف المعلومات عن تلك التي يستخدمها عامل من منطقة ريفية، بناءً على أنواع خبراتهم المختلفة وحتى أنواع مختلفة من التحيزات التي يمكن أن يمتلكها العمال".

يدرك خبراء الصناعة أن مجموعة كبيرة من نماذج الذكاء الاصطناعي في الإنتاج اليوم تتطلب بيانات مشروحة ومُصنفة للتعلم منها لتعزيز ذكاء الذكاء الاصطناعي، وفي النهاية، القدرات الكلية للجهاز.

كما أن التقنيات التي تدعم ذلك معقدة أيضًا، مثل معالجة اللغة الطبيعية (NLP) Natural Language Processing ورؤية الكمبيوتر Computer Vision وتحليل المشاعر Sentiment Analysis. مع هذه التعقيدات، فإن هامش الخطأ فيما يتعلق بكيفية تدريب الذكاء الاصطناعي يمكن للأسف أن يكون كبيرًا جدًا.

تظهر الأبحاث أنه حتى نماذج لغة البرمجة اللغوية الطبيعية NLP language models المعروفة تحتوي على تحيزات عرقية ودينية وجنسية ومهنية. وبالمثل، قام الباحثون بتوثيق أدلة على تغلغل التحيزات في خوارزميات رؤية الكمبيوتر والتي أظهرت أن هذه النماذج تتعلم تلقائيًا التحيز من الطريقة التي يتم بها تصوير مجموعات الأشخاص (حسب العرق والجنس والوزن وما إلى ذلك) بشكل نمطي على الإنترنت. نماذج تحليل المشاعر تحمل نفس التحديات.

قالت Olga Megorskaya، عضوة لجنة قمة البيانات والرئيس التنفيذي لمنصة وسم البيانات العالمية Toloka AI: "يعد الذكاء الاصطناعي المسؤول موضوعًا مهمًا للغاية، ولكنه جيد بقدر ما هو قابل للتنفيذ". "إذا كنت شركة، فإن تطبيق الذكاء الاصطناعي بمسؤولية يعني المراقبة المستمرة لجودة النماذج التي نشرتها في الإنتاج في كل لحظة من الوقت وفهم مصدر القرارات التي يتخذها الذكاء الاصطناعي. [يجب] فهم البيانات التي تم تدريب هذه النماذج عليها وتحديث نماذج التدريب باستمرار وفقًا للسياق الحالي الذي يعمل فيه النموذج. ثانيًا، يعني الذكاء الاصطناعي المسؤول المعاملة المسؤولة للأشخاص الذين يتصرفون بالفعل خلف مسرح تدريب نماذج الذكاء الاصطناعي. وهذا هو المكان الذي نتعاون فيه بإحكام مع العديد من الباحثين والجامعات".

الشرح والشفافية Explainability and transparency
إذا كان الذكاء الاصطناعي المسؤول جيدًا بقدر ما هو قابل للتنفيذ، فإن قابلية التفسير والشفافية وراء الذكاء الاصطناعي تكون جيدة فقط مثل مشاعر الشفافية والمعلومات التي تمتد إلى كل من المعلقين التوضيحيين والمُصنّعين الذين يعملون مع البيانات، وكذلك لعملاء الشركات باستخدام خدمات مثل تولوكا Toloka.

على وجه التحديد، تولوكا، التي تم إطلاقها في عام 2014، تضع نفسها كمنصة تعهيد جماعي crowdsourcing platform ومشروع مهام صغيرة لتزويد الأفراد المتنوعين في جميع أنحاء العالم بترميز كميات كبيرة من البيانات التي يتم استخدامها في النهاية للتعلم الآلي وتحسين خوارزميات البحث.

على مدى السنوات الثماني الماضية، توسعت تولوكا؛ اليوم، يضم المشروع ما يزيد عن 200000 مستخدم يساهمون في التعليقات التوضيحية للبيانات ووضع العلامات عليها من أكثر من 100 دولة حول العالم. تطور الشركة أيضًا أدوات للمساعدة في الكشف عن التحيزات في مجموعات البيانات والأدوات التي توفر ملاحظات سريعة حول المشكلات التي تظهر فيما يتعلق بوضع العلامات على المشاريع التي يمكن أن تؤثر على واجهات الشركة الطالبة أو مشروعها أو أدواتها. تعمل تولوكا أيضًا عن كثب مع الباحثين في المعامل مثل Civic AI Lab في كلية خوري لعلوم الكمبيوتر في جامعة نورث إيسترن، حيث يعمل سافاج.

وفقًا لـ Megorskaya، يجب على الشركات في سوق الذكاء الاصطناعي ووسم البيانات العمل نحو الشفافية وإمكانية الشرح بطريقة "... تتطابق مع مصالح العمال والشركات لجعلها وضعًا مربحًا للجانبين حيث يحصل الجميع على ميزة التنمية المشتركة ".

توصي Megorskaya الشركات بالبقاء على دراية بما يلي لضمان الشفافية وقابلية التوضيح على الجبهتين الداخلية والخارجية:

- اضبط باستمرار البيانات التي يتم تدريب الذكاء الاصطناعي عليها لتعكس مواقف وبيانات الحياة الواقعية الحالية.
- قياس جودة النماذج واستخدام تلك المعلومات لبناء مقاييس على جودة النماذج الخاصة بك لتتبع تحسينها وأدائها مع مرور الوقت.
- ابق ذكيا. فكر في الشفافية على أنها رؤية للإرشادات التي يجب على مصنعي البيانات اتباعها عند إجراء التعليقات التوضيحية.
- تسهيل الوصول إلى التعليقات وتحديد أولويات معالجتها.

على سبيل المثال، توفر منصة Toloka رؤية للمهام المتاحة، بالإضافة إلى إرشادات المصنّعين الذين يقومون بالعمل. بهذه الطريقة، هناك حلقة ردود فعل مباشرة وسريعة من العمال الذين يقومون بوضع العلامات والشركات التي تطلب هذا العمل. إذا كانت هناك حاجة إلى تعديل قاعدة وضع العلامات أو التوجيه، فيمكن إجراء هذا التغيير في أي لحظة. تتيح هذه العملية مساحة لفرق المصنفين للتعامل بعد ذلك مع ما تبقى من عملية وسم البيانات بطريقة موحدة ودقيقة ومحدثة - مما يتيح مجالًا لنهج مرتكز على الإنسان لمعالجة التحيزات عند ظهورها.
 
جعل "الإنسانية" في طليعة الابتكار Bringing the ‘humanity’ to the forefront of innovation
يتفق كل من Megorskaya و Savage على أنه إذا تركت الشركة تسمية البيانات والتعليقات التوضيحية لأطراف ثالثة أو الاستعانة بمصادر خارجية، فإن هذا القرار بحد ذاته يخلق صدعًا في التطوير المسؤول للذكاء الاصطناعي، فسوف تستمر في التدريب في النهاية. في كثير من الأحيان، لا يتوفر لدى الشركات التي تقوم بالتعهيد والتدريب لنماذج الذكاء الاصطناعي الخاصة بها خيار التفاعل المباشر مع الأفراد الذين يصنفون البيانات بالفعل.

من خلال التركيز على إزالة التحيز من مجال إنتاج الذكاء الاصطناعي وكسر حلقة الأنظمة غير المتصلة، يقول تولوكا إن الذكاء الاصطناعي والتعلم الآلي سيصبحان أكثر شمولاً وتمثيلًا للمجتمع.

تأمل تولوكا في تمهيد الطريق لهذا التغيير وتهدف إلى جعل مهندسي التطوير في الشركات الطالبة يلتقون بجهات ملصقات البيانات وجهًا لوجه. من خلال القيام بذلك، يمكنهم رؤية التنوع في المستخدمين النهائيين الذي ستؤثر عليه بياناته والذكاء الاصطناعي في النهاية. الهندسة بدون رؤية الأشخاص الحقيقيين والأماكن والمجتمعات ستؤثر تكنولوجيا الشركة في النهاية على خلق فجوة، وإزالة هذه الفجوة بهذه الطريقة يخلق طبقة جديدة من التطوير المسؤول للفرق.

قال ميجورسكايا: "في العالم الحديث، لا يمكن تدريب أي نموذج فعال للذكاء الاصطناعي على بعض البيانات التي تم جمعها من قبل مجموعة ضيقة من الأشخاص المختارين مسبقًا الذين يقضون حياتهم في القيام بهذا التعليق التوضيحي فقط".

تقوم تولوكا ببناء أوراق بيانات لإبراز التحيزات التي يمكن أن يمتلكها العمال. قال سافاج: "عندما تقوم بتصنيف البيانات، تعرض هذه الأوراق معلومات مثل نوع الخلفيات التي يمتلكها العمال، والخلفيات التي قد تكون مفقودة". "هذا مفيد بشكل خاص للمطورين والباحثين ليشاهدوه حتى يتمكنوا من اتخاذ قرارات للحصول على الخلفيات ووجهات النظر التي قد تكون مفقودة في الجولة التالية لجعل النماذج أكثر شمولاً".

على الرغم من أنه قد يبدو محاولة شاقة لتضمين عالم من الأعراق والخلفيات والتجارب والتنشئة التي لا حصر لها في كل مجموعة بيانات ونموذج، فإن Savage و Megorskaya يؤكدان أنه بالنسبة للمؤسسات والباحثين والمطورين على حد سواء، فإن الطريقة الأكثر أهمية لمواصلة التسلق نحو الإنصاف والذكاء الاصطناعي المسؤول هو إشراك العديد من أصحاب المصلحة الرئيسيين الذين ستؤثر عليهم تقنيتك منذ البداية، حيث يصبح تصحيح التحيزات لاحقًا على الطريق أكثر صعوبة.

قال ميجورسكايا: "قد يكون من الصعب القول إن الذكاء الاصطناعي يمكن أن يكون مسؤولًا تمامًا وأخلاقيًا، ولكن من المهم التعامل مع هذا الهدف بأكبر قدر ممكن من الدقة". "من الأهمية بمكان أن يكون لديك تمثيل واسع وشامل قدر الإمكان لمنح المهندسين أفضل الأدوات لبناء الذكاء الاصطناعي بشكل فعال بأكبر قدر ممكن من المسؤولية".