AI progress depends on us using less data, not more
في مجتمع علم البيانات، نشهد بدايات وباء معلومات- حيث تصبح المزيد من البيانات مسئولية وليست أصلًا. نحن نتجه باستمرار نحو المزيد من البيانات المتعطشة للبيانات وأكثر تكلفة من الناحية الحسابية من نماذج الذكاء الاصطناعي الحديثة. وسيؤدي ذلك إلى بعض الآثار الجانبية الضارة وربما معاكسة للحدس.
لتجنب الجوانب السلبية الخطيرة، يتعين على مجتمع علم البيانات أن يبدأ العمل مع بعض القيود المفروضة ذاتيًا: على وجه التحديد، البيانات المحدودة والموارد الحاسوبية.
ستعمل ممارسة الحد الأدنى من البيانات على تمكين العديد من الصناعات التي يحركها الذكاء الاصطناعي- بما في ذلك الأمن السيبراني، لتصبح أكثر كفاءة ويمكن الوصول إليها واستقلالية وتعطيلًا.
لتجنب الجوانب السلبية الخطيرة، يتعين على مجتمع علم البيانات أن يبدأ العمل مع بعض القيود المفروضة ذاتيًا: على وجه التحديد، البيانات المحدودة والموارد الحاسوبية.
ستعمل ممارسة الحد الأدنى من البيانات على تمكين العديد من الصناعات التي يحركها الذكاء الاصطناعي- بما في ذلك الأمن السيبراني، لتصبح أكثر كفاءة ويمكن الوصول إليها واستقلالية وتعطيلًا.
عندما تصبح البيانات نقمة وليست نعمة When data becomes a curse rather than a blessing
قبل أن نذهب إلى أبعد من ذلك، اسمحوا لي أن أشرح المشكلة في اعتمادنا على خوارزميات الذكاء الاصطناعي المتعطشة للبيانات بشكل متزايد. بعبارات مبسطة، فإن النماذج التي تعمل بالذكاء الاصطناعي "تتعلم learning" دون أن تكون مبرمجة بشكل صريح للقيام بذلك، من خلال عملية التجربة والخطأ التي تعتمد على قائمة مجمعة من العينات. كلما زاد عدد نقاط البيانات لديك- حتى لو بدا أن العديد منها لا يمكن تمييزه بالعين المجردة، يجب أن تحصل نظريًا على نماذج أكثر دقة وقوة تعمل بالذكاء الاصطناعي.
بحثًا عن دقة أعلى ومعدلات إيجابية كاذبة منخفضة ، تواجه صناعات مثل الأمن السيبراني- الذي كان متفائلًا بشأن قدرته على الاستفادة من الكمية غير المسبوقة من البيانات التي أعقبت التحول الرقمي للمؤسسات- الآن مجموعة جديدة كاملة من التحديات:
1. الذكاء الاصطناعي لديه إدمان حسابي AI has a compute addiction. الخوف المتزايد هو أن التطورات الجديدة في أبحاث الذكاء الاصطناعي التجريبية، والتي تتطلب في كثير من الأحيان مجموعات بيانات هائلة مدعومة ببنية تحتية حسابية مناسبة، قد تنجم عن قيود الحوسبة والذاكرة، ناهيك عن التكاليف المالية والبيئية لاحتياجات الحوسبة الأعلى.
في حين أننا قد نصل إلى العديد من معالم الذكاء الاصطناعي الأخرى باستخدام هذا النهج كثيف البيانات، مع مرور الوقت، سنرى تقدمًا بطيئًا. يجب أن يكون ميل مجتمع علم البيانات إلى استهداف البيانات - "لا تشبع insatiable" واستنزاف البيانات من أحدث النماذج في بعض المجالات (مثل مجال البرمجة اللغوية العصبية والنماذج اللغوية واسعة النطاق السائدة) بمثابة علامة تحذير. تشير تحليلات OpenAI إلى أن مجتمع علوم البيانات أكثر كفاءة في تحقيق الأهداف التي تم الحصول عليها بالفعل ولكنها تثبت أنه يتطلب المزيد من الحوسبة، ببضعة أوامر من حيث الحجم، للوصول إلى إنجازات جديدة مثيرة للذكاء الاصطناعي. قدر باحثو معهد ماساتشوستس MIT للتكنولوجيا أن "ثلاث سنوات من التحسين الحسابي تعادل زيادة 10 مرات في قوة الحوسبة". علاوة على ذلك، فإن إنشاء نموذج مناسب للذكاء الاصطناعي يتحمل انحرافات المفاهيم بمرور الوقت ويتغلب على "نقص المواصفات underspecification" يتطلب عادةً جولات متعددة من التدريب والضبط، مما يعني المزيد من موارد الحوسبة.
إذا كان دفع مظروف الذكاء الاصطناعي يعني استهلاك المزيد من الموارد المتخصصة بتكاليف أكبر، فعندئذ، نعم، سيستمر عمالقة التكنولوجيا الرائدون في دفع الثمن للبقاء في الصدارة، لكن معظم المؤسسات الأكاديمية ستجد صعوبة في المشاركة في هذه "المخاطر العالية"- منافسة مكافأة عالية. من المرجح أن تتبنى هذه المؤسسات إما تقنيات فعالة في استخدام الموارد أو تطلع على مجالات البحث المجاورة. قد يكون لحاجز الحوسبة الكبير تأثير تبريد لا مبرر له على الباحثين الأكاديميين أنفسهم، الذين قد يختارون ضبط النفس أو الامتناع تمامًا عن الاطلاع على التطورات الثورية المدعومة بالذكاء الاصطناعي.
2. البيانات الضخمة يمكن أن تعني ضوضاء زائفة أكثر Big data can mean more spurious noise. حتى إذا افترضت أنك قد حددت وصممت بشكل صحيح هدف وبنية نموذج الذكاء الاصطناعي وأنك جمعت بيانات ذات صلة ورعايتها وأعدت بشكل كافٍ ، فليس لديك أي ضمان بأن النموذج سيحقق نتائج مفيدة وقابلة للتنفيذ. أثناء عملية التدريب، مع استهلاك نقاط بيانات إضافية، قد يستمر النموذج في تحديد الارتباطات الزائفة المضللة بين المتغيرات المختلفة. قد ترتبط هذه المتغيرات بطريقة تبدو ذات دلالة إحصائية، ولكنها ليست مرتبطة سببيًا، وبالتالي لا تعمل كمؤشرات مفيدة لأغراض التنبؤ.
أرى هذا في مجال الأمن السيبراني: تشعر الصناعة بأنها مضطرة لأخذ أكبر عدد ممكن من الميزات في الاعتبار، على أمل إنشاء آليات اكتشاف واكتشاف أفضل، وخطوط أساسية للأمان، وعمليات مصادقة، لكن الارتباطات الزائفة يمكن أن تلقي بظلالها على الارتباطات الخفية التي يهم فعلا.
3. ما زلنا نحرز تقدمًا خطيًا فقط We’re still only making linear progres. قد تكون حقيقة أن النماذج الكبيرة المتعطشة للبيانات تؤدي أداءً جيدًا للغاية في ظل ظروف معينة، عن طريق محاكاة المحتوى الذي ينشئه الإنسان أو تجاوز بعض قدرات الكشف والتعرف البشرية، أمرًا مضللًا. قد يمنع ممارسي البيانات من إدراك أن بعض الجهود الحالية في أبحاث الذكاء الاصطناعي التطبيقية تعمل فقط على توسيع القدرات القائمة على الذكاء الاصطناعي في تقدم خطي بدلاً من إنتاج قفزات حقيقية- بالطريقة التي تؤمن بها المؤسسات أنظمتها وشبكاتها، على سبيل المثال.
أسفرت نماذج التعلم العميق غير الخاضعة للإشراف والتي يتم تغذيتها على مجموعات البيانات الكبيرة عن نتائج ملحوظة على مر السنين- خاصة من خلال التعلم عن طريق النقل والشبكات التوليدية (generative adversarial networks GANs). ولكن حتى في ضوء التقدم في أبحاث الذكاء الاصطناعي ذات الطابع العصبي، فإن النماذج التي تعمل بالذكاء الاصطناعي لا تزال بعيدة عن إظهار الحدس أو الخيال أو التفكير من أعلى إلى أسفل أو الذكاء الاصطناعي العام (artificial general intelligence AGI) الذي يمكن تطبيقه على نطاق واسع وفعال بشكل أساسي. مشاكل مختلفة- مثل المهام الأمنية المتنوعة وغير المسجلة والمتطورة أثناء مواجهة خصوم ديناميكيين ومتطورين.
4. مخاوف الخصوصية آخذة في التوسع Privacy concerns are expanding. أخيرًا وليس آخرًا، يثير جمع وتخزين واستخدام كميات كبيرة من البيانات (بما في ذلك البيانات التي ينشئها المستخدم)- والتي تعتبر صالحة بشكل خاص لتطبيقات الأمن السيبراني- عددًا كبيرًا من الاعتبارات المتعلقة بالخصوصية والمخاوف القانونية والتنظيمية. يتم دحض الحجج القائلة بأن نقاط البيانات المتعلقة بالأمن السيبراني لا تحمل أو تشكل معلومات تعريف شخصية (personally identifiable information PII) هذه الأيام، لأن الارتباط القوي بين الهويات الشخصية والسمات الرقمية يوسع التعريف القانوني لمعلومات التعريف الشخصية ليشمل ، على سبيل المثال ، حتى عنوان IP.
أسفرت نماذج التعلم العميق غير الخاضعة للإشراف والتي يتم تغذيتها على مجموعات البيانات الكبيرة عن نتائج ملحوظة على مر السنين- خاصة من خلال التعلم عن طريق النقل والشبكات التوليدية (generative adversarial networks GANs). ولكن حتى في ضوء التقدم في أبحاث الذكاء الاصطناعي ذات الطابع العصبي، فإن النماذج التي تعمل بالذكاء الاصطناعي لا تزال بعيدة عن إظهار الحدس أو الخيال أو التفكير من أعلى إلى أسفل أو الذكاء الاصطناعي العام (artificial general intelligence AGI) الذي يمكن تطبيقه على نطاق واسع وفعال بشكل أساسي. مشاكل مختلفة- مثل المهام الأمنية المتنوعة وغير المسجلة والمتطورة أثناء مواجهة خصوم ديناميكيين ومتطورين.
4. مخاوف الخصوصية آخذة في التوسع Privacy concerns are expanding. أخيرًا وليس آخرًا، يثير جمع وتخزين واستخدام كميات كبيرة من البيانات (بما في ذلك البيانات التي ينشئها المستخدم)- والتي تعتبر صالحة بشكل خاص لتطبيقات الأمن السيبراني- عددًا كبيرًا من الاعتبارات المتعلقة بالخصوصية والمخاوف القانونية والتنظيمية. يتم دحض الحجج القائلة بأن نقاط البيانات المتعلقة بالأمن السيبراني لا تحمل أو تشكل معلومات تعريف شخصية (personally identifiable information PII) هذه الأيام، لأن الارتباط القوي بين الهويات الشخصية والسمات الرقمية يوسع التعريف القانوني لمعلومات التعريف الشخصية ليشمل ، على سبيل المثال ، حتى عنوان IP.
كيف تعلمت التوقف عن القلق والاستمتاع بنقص البيانات
أبرز الظهور غير المتوقع لـ Covid-19 صعوبة نماذج الذكاء الاصطناعي في التكيف بشكل فعال مع الظروف والحالات غير المرئية، وربما غير المتوقعة (مثل الانتقال العالمي إلى العمل عن بُعد)، لا سيما في الفضاء الإلكتروني حيث تكون العديد من مجموعات البيانات شاذة بشكل طبيعي أو تتميز بالتباين العالي. أكد الوباء فقط على أهمية توضيح هدف النموذج بشكل واضح ودقيق وإعداد بيانات التدريب الخاصة به بشكل مناسب. عادة ما تكون هذه المهام مهمة وكثيفة العمالة مثل تجميع عينات إضافية أو حتى اختيار وشحذ بنية النموذج.
في هذه الأيام، يتعين على صناعة الأمن السيبراني أن تمر بمرحلة إعادة معايرة أخرى حيث إنها تتعامل مع عدم قدرتها على التعامل مع "جرعة البيانات الزائدة data overdose"، أو الوباء المعلوماتي، الذي ابتليت به عالم الإنترنت. يمكن أن تكون الأساليب التالية بمثابة مبادئ إرشادية لتسريع عملية إعادة المعايرة هذه، وهي صالحة لمجالات أخرى من الذكاء الاصطناعي أيضًا ، وليس فقط الأمن السيبراني:
فعالية الخوارزميات كأولوية قصوى Algorithmic efficacy as top priority. من خلال تقييم هضبة قانون مور plateauing Moore’s law، تعمل الشركات والباحثون في مجال الذكاء الاصطناعي على زيادة فعالية الخوارزميات من خلال اختبار الأساليب والتقنيات المبتكرة، والتي لا يزال بعضها في مرحلة النشر الأولى. تتراوح هذه الأساليب، التي تنطبق حاليًا فقط على مهام محددة، من تطبيق Switch Transformers، إلى تحسين طرق قليلة من اللقطات، و One-Shot، و Less-Than-One-Shot Learning.
نهج التعزيز البشري أولاً Human augmentation-first approach. من خلال الحد من نماذج الذكاء الاصطناعي لزيادة سير عمل متخصص الأمن والسماح للذكاء البشري والاصطناعي بالعمل جنبًا إلى جنب، يمكن تطبيق هذه النماذج على تطبيقات أمنية ضيقة جدًا ومحددة جيدًا، والتي تتطلب بطبيعتها بيانات تدريب أقل. يمكن أن تتجلى حواجز حماية الذكاء الاصطناعي هذه من حيث التدخل البشري أو من خلال دمج الخوارزميات المستندة إلى القواعد التي ترميز الحكم البشري. ليس من قبيل المصادفة أن عددًا متزايدًا من بائعي خدمات الأمن يفضلون تقديم حلول تعتمد على الذكاء الاصطناعي والتي تزيد فقط الإنسان في الحلقة ، بدلاً من استبدال الأحكام البشرية معًا.
يمكن للمنظمين أيضًا أن ينظروا بإيجابية إلى هذا النهج، لأنهم يبحثون عن مساءلة بشرية، وإشراف، وآليات آمنة من الفشل، لا سيما عندما يتعلق الأمر بالعمليات الآلية والمعقدة و "الصندوق الأسود black box". يحاول بعض البائعين إيجاد حل وسط من خلال تقديم التعلم النشط أو منهجيات التعلم المعزز، والتي تستفيد من المدخلات البشرية والخبرة لإثراء النماذج الأساسية نفسها. بالتوازي مع ذلك، يعمل الباحثون على تعزيز وتحسين التفاعل بين الإنسان والآلة من خلال تعليم نماذج الذكاء الاصطناعي عند إرجاء القرار إلى الخبراء البشريين.
أبرز الظهور غير المتوقع لـ Covid-19 صعوبة نماذج الذكاء الاصطناعي في التكيف بشكل فعال مع الظروف والحالات غير المرئية، وربما غير المتوقعة (مثل الانتقال العالمي إلى العمل عن بُعد)، لا سيما في الفضاء الإلكتروني حيث تكون العديد من مجموعات البيانات شاذة بشكل طبيعي أو تتميز بالتباين العالي. أكد الوباء فقط على أهمية توضيح هدف النموذج بشكل واضح ودقيق وإعداد بيانات التدريب الخاصة به بشكل مناسب. عادة ما تكون هذه المهام مهمة وكثيفة العمالة مثل تجميع عينات إضافية أو حتى اختيار وشحذ بنية النموذج.
في هذه الأيام، يتعين على صناعة الأمن السيبراني أن تمر بمرحلة إعادة معايرة أخرى حيث إنها تتعامل مع عدم قدرتها على التعامل مع "جرعة البيانات الزائدة data overdose"، أو الوباء المعلوماتي، الذي ابتليت به عالم الإنترنت. يمكن أن تكون الأساليب التالية بمثابة مبادئ إرشادية لتسريع عملية إعادة المعايرة هذه، وهي صالحة لمجالات أخرى من الذكاء الاصطناعي أيضًا ، وليس فقط الأمن السيبراني:
فعالية الخوارزميات كأولوية قصوى Algorithmic efficacy as top priority. من خلال تقييم هضبة قانون مور plateauing Moore’s law، تعمل الشركات والباحثون في مجال الذكاء الاصطناعي على زيادة فعالية الخوارزميات من خلال اختبار الأساليب والتقنيات المبتكرة، والتي لا يزال بعضها في مرحلة النشر الأولى. تتراوح هذه الأساليب، التي تنطبق حاليًا فقط على مهام محددة، من تطبيق Switch Transformers، إلى تحسين طرق قليلة من اللقطات، و One-Shot، و Less-Than-One-Shot Learning.
نهج التعزيز البشري أولاً Human augmentation-first approach. من خلال الحد من نماذج الذكاء الاصطناعي لزيادة سير عمل متخصص الأمن والسماح للذكاء البشري والاصطناعي بالعمل جنبًا إلى جنب، يمكن تطبيق هذه النماذج على تطبيقات أمنية ضيقة جدًا ومحددة جيدًا، والتي تتطلب بطبيعتها بيانات تدريب أقل. يمكن أن تتجلى حواجز حماية الذكاء الاصطناعي هذه من حيث التدخل البشري أو من خلال دمج الخوارزميات المستندة إلى القواعد التي ترميز الحكم البشري. ليس من قبيل المصادفة أن عددًا متزايدًا من بائعي خدمات الأمن يفضلون تقديم حلول تعتمد على الذكاء الاصطناعي والتي تزيد فقط الإنسان في الحلقة ، بدلاً من استبدال الأحكام البشرية معًا.
يمكن للمنظمين أيضًا أن ينظروا بإيجابية إلى هذا النهج، لأنهم يبحثون عن مساءلة بشرية، وإشراف، وآليات آمنة من الفشل، لا سيما عندما يتعلق الأمر بالعمليات الآلية والمعقدة و "الصندوق الأسود black box". يحاول بعض البائعين إيجاد حل وسط من خلال تقديم التعلم النشط أو منهجيات التعلم المعزز، والتي تستفيد من المدخلات البشرية والخبرة لإثراء النماذج الأساسية نفسها. بالتوازي مع ذلك، يعمل الباحثون على تعزيز وتحسين التفاعل بين الإنسان والآلة من خلال تعليم نماذج الذكاء الاصطناعي عند إرجاء القرار إلى الخبراء البشريين.
الاستفادة من تحسينات الأجهزة Leveraging hardware improvements. لم يتضح بعد ما إذا كانت بنيات ومعالجات الرقائق المخصصة والمُحسّنة للغاية جنبًا إلى جنب مع تقنيات وأطر البرمجة الجديدة، أو حتى أنظمة محوسبة مختلفة تمامًا، ستكون قادرة على تلبية الطلب المتزايد باستمرار على حسابات الذكاء الاصطناعي. تم تصميم بعض هذه الأسس التكنولوجية الجديدة المصممة خصيصًا لتطبيقات الذكاء الاصطناعي، والتي تربط وتوائم الأجهزة والبرامج المتخصصة بشكل وثيق، وهي أكثر قدرة من أي وقت مضى على أداء كميات لا يمكن تصورها من العمليات الحسابية المتوازية، ومضاعفات المصفوفة، ومعالجة الرسوم البيانية.
بالإضافة إلى ذلك، قد تلعب الأمثلة السحابية المصممة لهذا الغرض لحساب الذكاء الاصطناعي، وخطط التعلم الموحدة، والتقنيات الحدودية (الرقائق العصبية والحوسبة الكمية، وما إلى ذلك) دورًا رئيسيًا في هذا الجهد. على أي حال، من غير المرجح أن تحد هذه التطورات وحدها من الحاجة إلى تحسين الخوارزمية الذي قد "يفوق المكاسب من كفاءة الأجهزة outpace gains from hardware efficiency". ومع ذلك ، يمكن أن تثبت أهميتها ، لأن معركة أشباه الموصلات المستمرة من أجل هيمنة الذكاء الاصطناعي لم تسفر عن فائز واضح بعد.
مزايا انضباط البيانات The merits of data discipline
حتى الآن، عادة ما تملي الحكمة التقليدية في علم البيانات أنه عندما يتعلق الأمر بالبيانات، كلما كان لديك المزيد، كان ذلك أفضل. لكننا بدأنا الآن نرى أن الجوانب السلبية لنماذج الذكاء الاصطناعي المتعطشة للبيانات قد تفوق بمرور الوقت مزاياها بلا منازع.
لدى الشركات وبائعي الأمن السيبراني وممارسي البيانات الآخرين حوافز متعددة ليكونوا أكثر انضباطًا في طريقة جمعهم وتخزينهم واستهلاكهم للبيانات. كما أوضحت هنا، فإن أحد الحوافز التي يجب أن تكون في طليعة الذهن هو القدرة على رفع مستوى دقة وحساسية نماذج الذكاء الاصطناعي مع التخفيف من مخاوف الخصوصية. قد تكون المنظمات التي تتبنى هذا النهج، والتي تعتمد على ندرة البيانات بدلاً من وفرة البيانات، وتمارس ضبط النفس، مجهزة بشكل أفضل لدفع المزيد من الابتكارات القابلة للتنفيذ والفعالية من حيث التكلفة والتي تعتمد على الذكاء الاصطناعي على المدى الطويل.
بالإضافة إلى ذلك، قد تلعب الأمثلة السحابية المصممة لهذا الغرض لحساب الذكاء الاصطناعي، وخطط التعلم الموحدة، والتقنيات الحدودية (الرقائق العصبية والحوسبة الكمية، وما إلى ذلك) دورًا رئيسيًا في هذا الجهد. على أي حال، من غير المرجح أن تحد هذه التطورات وحدها من الحاجة إلى تحسين الخوارزمية الذي قد "يفوق المكاسب من كفاءة الأجهزة outpace gains from hardware efficiency". ومع ذلك ، يمكن أن تثبت أهميتها ، لأن معركة أشباه الموصلات المستمرة من أجل هيمنة الذكاء الاصطناعي لم تسفر عن فائز واضح بعد.
مزايا انضباط البيانات The merits of data discipline
حتى الآن، عادة ما تملي الحكمة التقليدية في علم البيانات أنه عندما يتعلق الأمر بالبيانات، كلما كان لديك المزيد، كان ذلك أفضل. لكننا بدأنا الآن نرى أن الجوانب السلبية لنماذج الذكاء الاصطناعي المتعطشة للبيانات قد تفوق بمرور الوقت مزاياها بلا منازع.
لدى الشركات وبائعي الأمن السيبراني وممارسي البيانات الآخرين حوافز متعددة ليكونوا أكثر انضباطًا في طريقة جمعهم وتخزينهم واستهلاكهم للبيانات. كما أوضحت هنا، فإن أحد الحوافز التي يجب أن تكون في طليعة الذهن هو القدرة على رفع مستوى دقة وحساسية نماذج الذكاء الاصطناعي مع التخفيف من مخاوف الخصوصية. قد تكون المنظمات التي تتبنى هذا النهج، والتي تعتمد على ندرة البيانات بدلاً من وفرة البيانات، وتمارس ضبط النفس، مجهزة بشكل أفضل لدفع المزيد من الابتكارات القابلة للتنفيذ والفعالية من حيث التكلفة والتي تعتمد على الذكاء الاصطناعي على المدى الطويل.