الأخبار

بروتوكول فعال لتأمين معلومات المستخدم الخاصة عندما تستخدمه الخوارزميات للتوصية بالمحتوى


توصي الخوارزميات بالمنتجات أثناء التسوق عبر الإنترنت أو اقتراح الأغاني التي قد نحبها أثناء استماعنا إلى الموسيقى على تطبيقات البث.

تعمل هذه الخوارزميات باستخدام المعلومات الشخصية مثل عمليات الشراء السابقة وسجل التصفح لإنشاء توصيات مخصصة. الطبيعة الحساسة لمثل هذه البيانات تجعل الحفاظ على الخصوصية في غاية الأهمية، ولكن الأساليب الحالية لحل هذه المشكلة تعتمد على أدوات تشفير ثقيلة تتطلب كميات هائلة من الحساب وعرض النطاق الترددي.

قد يكون لدى باحثي معهد ماساتشوستس للتكنولوجيا حلاً أفضل. لقد طوروا بروتوكولًا للحفاظ على الخصوصية يتسم بالكفاءة بحيث يمكن تشغيله على هاتف ذكي عبر شبكة بطيئة للغاية. يحمي أسلوبهم البيانات الشخصية مع ضمان دقة نتائج التوصيات.

بالإضافة إلى خصوصية المستخدم، يقلل البروتوكول الخاص بهم من النقل غير المصرح به للمعلومات من قاعدة البيانات، والمعروف باسم التسريب، حتى إذا حاول وكيل ضار خداع قاعدة بيانات للكشف عن معلومات سرية.

يمكن أن يكون البروتوكول الجديد مفيدًا بشكل خاص في المواقف التي قد ينتهك فيها تسرب البيانات قوانين خصوصية المستخدم، مثل عندما يستخدم مقدم الرعاية الصحية التاريخ الطبي للمريض للبحث في قاعدة بيانات عن مرضى آخرين لديهم أعراض مماثلة أو عندما تقدم شركة إعلانات مستهدفة للمستخدمين تحت لوائح الخصوصية الأوروبية.

يقول Sacha Servan-Schreiber، طالب دراسات عليا في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) Artificial Intelligence Laboratory والمؤلف الرئيسي لـ الورقة التي تقدم هذا البروتوكول الجديد.

كتب Servan-Schreiber الورقة مع Simon Langowski زميله طالب الدراسات العليا في CSAIL وSrinivas Devadas مستشارهم وكاتبهم، أستاذ إدوين سيبلي ويبستر للهندسة الكهربائية. سيتم تقديم البحث في ندوة IEEE حول الأمن والخصوصية.

البيانات المجاورة
تُعرف التقنية الموجودة في قلب محركات التوصية الخوارزمية باسم البحث المجاور الأقرب، والذي يتضمن العثور على نقطة البيانات في قاعدة البيانات الأقرب إلى نقطة الاستعلام. تشترك نقاط البيانات التي تم تعيينها في مكان قريب في سمات متشابهة وتسمى بالجيران.

تتضمن عمليات البحث هذه خادمًا مرتبطًا بقاعدة بيانات عبر الإنترنت تحتوي على تمثيلات موجزة لسمات نقطة البيانات. في حالة خدمة بث الموسيقى، يمكن أن تكون تلك السمات، المعروفة باسم ناقلات الميزات، هي النوع أو شعبية الأغاني المختلفة.

للعثور على توصية بأغنية، يرسل العميل (المستخدم) استعلامًا إلى الخادم يحتوي على ناقل ميزة معين، مثل نوع الموسيقى التي يحبها المستخدم أو سجل مضغوط لعادات الاستماع الخاصة به. يوفر الخادم بعد ذلك معرف متجه الميزات في قاعدة البيانات الأقرب إلى استعلام العميل، دون الكشف عن المتجه الفعلي. في حالة بث الموسيقى، من المحتمل أن يكون هذا المعرف عنوان أغنية. يتعلم العميل عنوان الأغنية الموصى به دون أن يتعلم متجه الميزة المرتبط به.

يقول Langowski: "يجب أن يكون الخادم قادرًا على إجراء هذه العملية الحسابية دون رؤية الأرقام التي يجري الحساب عليها. لا يمكنه في الواقع رؤية الميزات، ولكنه لا يزال بحاجة إلى تزويدك بأقرب شيء في قاعدة البيانات".

لتحقيق ذلك، أنشأ الباحثون بروتوكولًا يعتمد على خادمين منفصلين يصلان إلى نفس قاعدة البيانات. إن استخدام خادمين يجعل العملية أكثر كفاءة ويتيح استخدام تقنية تشفير تُعرف باسم استرداد المعلومات الخاصة. يوضح Servan-Schreiber أن هذه التقنية تسمح للعميل بالاستعلام عن قاعدة بيانات دون الكشف عن ما يبحث عنه.

التغلب على التحديات الأمنية
ولكن في حين أن استرداد المعلومات الخاصة آمن من جانب العميل، إلا أنه لا يوفر خصوصية قاعدة البيانات من تلقاء نفسه. تقدم قاعدة البيانات مجموعة من المتجهات المرشحة - أقرب جيران محتملين- للعميل، والتي عادةً ما يتم تخليصها لاحقًا بواسطة العميل باستخدام القوة الغاشمة. ومع ذلك، فإن القيام بذلك يمكن أن يكشف الكثير عن قاعدة البيانات للعميل. يتمثل التحدي الإضافي للخصوصية في منع العميل من تعلم هذه النواقل الإضافية.

استخدم الباحثون تقنية ضبط تقضي على العديد من النواقل الإضافية في المقام الأول، ثم استخدموا خدعة مختلفة، يسمونها إخفاء النسيان، لإخفاء أي نقاط بيانات إضافية باستثناء أقرب الجار الفعلي. هذا يحافظ على خصوصية قاعدة البيانات بكفاءة، لذلك لن يتعلم العميل أي شيء عن ناقلات الميزات في قاعدة البيانات.

بمجرد تصميم هذا البروتوكول، قاموا باختباره من خلال تطبيق غير خاص على أربع مجموعات بيانات في العالم الحقيقي لتحديد كيفية ضبط الخوارزمية لتحقيق أقصى قدر من الدقة. بعد ذلك، استخدموا بروتوكولهم لإجراء استعلامات بحث خاصة بأقرب الجيران على مجموعات البيانات هذه.

تتطلب تقنيتهم ​​بضع ثوانٍ من وقت معالجة الخادم لكل استعلام وأقل من 10 ميغا بايت من الاتصال بين العميل والخوادم، حتى مع قواعد البيانات التي تحتوي على أكثر من 10 ملايين عنصر. على النقيض من ذلك، يمكن أن تتطلب الطرق الآمنة الأخرى وحدات غيغابايت من الاتصال أو ساعات من وقت الحساب. مع كل استعلام، حققت طريقتهم دقة تزيد عن 95 بالمائة (مما يعني أنه في كل مرة عثرت فيها على أقرب جوار فعلي تقريبي لنقطة الاستعلام).

ستعمل التقنيات التي استخدموها لتمكين خصوصية قاعدة البيانات على إحباط العميل الضار حتى لو أرسل استعلامات خاطئة لمحاولة خداع الخادم لتسريب المعلومات.

"لن يتعلم العميل الضار معلومات أكثر بكثير من العميل الصادق الذي يتبع البروتوكول. كما أنه يحمي من الخوادم الضارة أيضًا. إذا انحرف أحدهم عن البروتوكول، فقد لا تحصل على النتيجة الصحيحة، لكنهم لن يتعلموا أبدًا ما استعلام العميل كان، "يقول لانغوفسكي.

في المستقبل، يخطط الباحثون لتعديل البروتوكول حتى يتمكن من الحفاظ على الخصوصية باستخدام خادم واحد فقط. قد يتيح ذلك إمكانية تطبيقه في مواقف أكثر واقعية، لأنه لن يتطلب استخدام كيانين غير متصارعين (لا يتشاركان المعلومات مع بعضهما البعض) لإدارة قاعدة البيانات.

يقول بيان بروس: "يدعم البحث في الجوار الأقرب العديد من التطبيقات المهمة التي تعتمد على التعلم الآلي، بدءًا من تزويد المستخدمين بتوصيات المحتوى إلى تصنيف الحالات الطبية. ومع ذلك، يتطلب عادةً مشاركة الكثير من البيانات مع نظام مركزي لتجميع البحث وتمكينه"، رئيس أبحاث التعلم الآلي التطبيقية في Capital One، والذي لم يشارك في هذا العمل. "يوفر هذا البحث خطوة رئيسية نحو ضمان حصول المستخدم على الفوائد من البحث عن أقرب الجيران مع الثقة في أن النظام المركزي لن يستخدم بياناته لأغراض أخرى".