الأخبار

إليك ما تحتاج لمعرفته حول FLoC: بديل Google للتتبع الفردي

Here's what you need to know about FLoC: Google's alternative to individual tracking
 
قامت Google ببعض الموجات في وقت سابق من هذا الأسبوع عندما تفاخرت بأنها ستتوقف قريبًا عن تتبع الأفراد عبر الإعلانات وأنشطة التصفح الخاصة بهم. لقد كان الكثيرون حذرين بشأن هذا الإعلان بشكل مفهوم ويعتقدون أنه لا بد من وجود ثغرة تسمح لـ Google بتتبعك وتقديم إعلانات مستهدفة لك.

كالعادة، من المهم أن نتجاوز العناوين الرئيسية، حيث أن الشيطان يكمن في التفاصيل. في هذه المقالة، سوف نلقي نظرة على ما تقترحه Google كبديل لقدرات التتبع المعتادة.

كيف تتعقب Google عادة الأفراد؟
 

يتتبع Google نشاطك عبر الإنترنت بعدة طرق بما في ذلك عادات التصفح والبيانات الوصفية والقياس عن بُعد الذي يستخرجه من ملفات تعريف الارتباط، بالإضافة إلى منتجات البرامج والأجهزة مثل موقعك وسجل البحث وتفاعلك مع مساعد Google وحسابك على Google, Gmail و YouTube والمزيد.

تقوم الشركة بعد ذلك بإنشاء ملف تعريف إعلان فريد لك يمكن لمزودي الإعلانات استخدامه لعرض الإعلانات المستهدفة لك. كما يتضح من ملفي الشخصي للإعلان في لقطة الشاشة أعلاه- يمكنك عرض ملفك الشخصي هنا-، تعرف Google بشكل صحيح أنني رجل يبلغ من العمر 24 عامًا، وتشمل اهتماماتي الأفلام والألعاب ومنصات الهاتف المحمول والأمن السيبراني والخدمات المصرفية، وهكذا. معظم هذه المعلومات دقيقة وستكون قادرًا على استيعابها، هذا ليس سوى جزء مما تعتقد Google أنه اهتمامات ذات صلة بي. القائمة مرتبة أبجديًا وتحتوي في الواقع على مئات الموضوعات التي عينتها الشركة لملفي الشخصي.

من خلال هذا، يكون من السهل جدًا لمقدمي الإعلانات تحديد الإعلانات التي يريدون عرضها لي. أسامة مهتم بالبرامج الصوتية؟ لنبدأ في عرض إعلانات له عن اشتراكات Spotify المميزة. هل هو مهتم ببرامج مكافحة الفيروسات؟ لنبدأ في عرض إعلانات عليه Norton AntiVirus. القائمة تطول وتطول، وكما ترى، هناك قيمة كبيرة في هذه البيانات لمزودي الإعلانات على حساب الخصوصية الفردية.

ومع ذلك، تقول Google إنها ستتوقف قريبًا عن تتبع اهتماماتك الفردية بهذه الطريقة. هذه أخبار رائعة على الورق ولكن هل هذا يعني أن الشركة لن تتعقبك على الإطلاق؟ ليس تماما.

أدخل FLoC
 
 
التعلم المتحد للجماعات (Federated Learning of Cohorts FLoC) هي تقنية اقترحتها Google في يناير 2020 كجزء من مبادرة Privacy Sandbox. تعمل واجهة برمجة التطبيقات هذه، التي تخضع حاليًا للاختبار، على تمكين آلية الحفاظ على الخصوصية بمعنى أنه بدلاً من إنشاء ملفات تعريف إعلانية فريدة للأفراد، فإنها تقوم بتعيينهم في مجموعة من الأشخاص الذين لديهم اهتمامات مماثلة. سأستخدم مصطلحات "مجموعة" و "مجموعة" و "مجموعة" هذه المقالة بالتبادل.

الفكرة هي أن تقوم المتصفحات بتحليل عادات المستخدم محليًا دون إرسالها إلى خادم، ثم تخصيص معرف مجموعة. على سبيل المثال، قد أنتمي إلى "المجموعة أ"، والتي ستحتوي على آلاف الأفراد الذين لديهم عادات تصفح مماثلة لعاداتي، في حين أن المجموعات الأخرى (المجموعة ب، وجيم، ودال ...) ستحتوي على مستخدمين تختلف اهتماماتهم اختلافًا كبيرًا عن اهتماماتي.

على هذا النحو، عندما يتم تطوير مجموعة نموذجية وجاهزة للاستخدام لعرض الإعلانات، سيتعين على موفري الإعلانات تقديم إعلانات مماثلة للمجموعة بأكملها بدلاً من عرض إعلانات محددة تناسب اهتماماتي. لذلك، ستكون هناك سيناريوهات إذا تم تعيين مجموعتي لمجموعة تتكون في الغالب من أشخاص لديهم اهتمامات في مجال التكنولوجيا، سأرى إعلانات متعلقة بالتكنولوجيا، ولكن لن تتوافق جميعها تمامًا مع اهتماماتي. وبالمثل، قد تميل نفس المجموعة أيضًا إلى حد ما تجاه الأشخاص الذين يحبون كرة القدم جنبًا إلى جنب مع التكنولوجيا، لذلك سأعرض بشكل متقطع إعلانات تتعلق بكرة القدم، على الرغم من أنها ليست موضوعًا مثيرًا للاهتمام بالنسبة لي.

كيف يعمل FLoC؟
 
 
نظرًا لأن FLoC يعتمد على فكرة تجميع المستخدمين ذوي الاهتمامات المتشابهة، فإن مجال الاهتمام الرئيسي هو تعيين المجموعة. من وجهة نظر عين الطائر، تختبر Google عدة خوارزميات لإنشاء متجه ثنائي البعد p بناءً على سجل تصفح المستخدم. سيشترك جميع المستخدمين الذين لديهم قيمة تجزئة مماثلة في نفس المجموعة النموذجية.

نظرًا لأن السبب الرئيسي وراء هذه المبادرة هو ضمان خصوصية المستخدم، فقد أوصت Google بضرورة وجود مجموعة نموذجية على الأقل "k" مستخدمين متميزين. حدسيًا، كلما زادت قيمة "k"، زادت الخصوصية التي تتمتع بها عبر الويب. وقد أطلقت الشركة على هذا المقياس اسم "إخفاء الهوية من نوع K"، قائلة إنه يشبه الاختباء وسط حشد من الناس.

تتضمن المبادئ الكامنة وراء FLoC حقيقة أن الخوارزميات المستخدمة لتخصيص المجموعة يجب أن تكون غير خاضعة للإشراف لأن مقدمي الخدمة سيستخدمون وظائف التحسين الخاصة بهم ولن يعتمدوا على البيانات المصنفة. وبالمثل، يجب أن تتكون المجموعة النموذجية فقط من المستخدمين الذين لديهم نشاط مماثل، ويجب أن يقيد المعرف التتبع الفردي عبر المواقع. فيما يتعلق بالخوارزمية نفسها، يجب أن يكون الحساب بسيطًا لأنه سيتم تشغيله محليًا في المتصفحات، ويجب أن تكون المعلمات المستخدمة سهلة الفهم.

اختبرت Google خوارزميات متعددة وحكمت عليها وفقًا لثلاثة مقاييس: الخصوصية، والمرافق، والمركزية. هناك مقايضة متأصلة بين الأولين. كلما زادت الخصوصية لديك (أي أنك تنتمي إلى مجموعة كبيرة)، قلت الإعلانات المخصصة التي ستحصل عليها، والعكس صحيح. الهدف هو تكوين مجموعات مع عدد كبير من المستخدمين، وجميعهم لديهم اهتمامات متشابهة. أخيرًا، تشير المركزية إلى ما إذا كانت هناك حاجة إلى إرسال أي معلومات إلى خادم مركزي لحساب معرف المجموعة.

الخوارزميات
 
 
جميع الخوارزميات التي اختبرتها Google حتى الآن هي خوارزميات مجمعة، وهو أمر منطقي نظرًا لهدف المبادرة. على الرغم من أننا لن ندخل في التفاصيل الرياضية لكل خوارزمية نظرًا لأن هذه موضوعات كاملة تمامًا، سنناقشها من مستوى عالٍ جنبًا إلى جنب مع خصائصها.

الأول هو SimHash، الذي يولد متجهات p-dimensional على أساس المدخلات. وكلما اقتربت هذه النواقل، زادت احتمالية تجزئتها إلى نفس المجموعة. يمكن أن يكون أحد مدخلات الخوارزمية في هذه الحالة هو سجل تصفح المستخدم. إذا كان لدى مستخدمين عادات تصفح متشابهة، فستكون زاوية جيب التمام بين المتجهات الخاصة بهم صغيرة جدًا ومن المحتمل أن يتم تعيين نفس المجموعة والعكس صحيح.

ميزة SimHash هي أنه لا يعتمد على مستخدمين آخرين لإنشاء معرف مجموعة. يمكن إنشاء معرّف المجموعة النموذجية دون معرفة متجهات المستخدمين الآخرين، لأنه يعتمد فقط على محفوظات الاستعراض الخاصة بك. عيب هذا الأسلوب هو أن الحد الأدنى لحجم الكتلة لا يمكن فرضه بدون خادم مركزي. بدون حد أدنى للحجم، قد تكون هناك حالات حافة حيث ستحتوي بعض المجموعات على مئات المستخدمين وسيحتوي البعض الآخر على زوجين فقط. يمكن إعداد خادم مجموعة لمعالجة هذه المشكلة التي ستتبع أحجام المجموعة ولن تسمح لواجهة برمجة التطبيقات بإرجاع معرف مجموعة لا تفي بالحد الأدنى من المتطلبات. سيتطلب هذا الخادم "تجزئة بطول بت صغير" للإدخال - وهو سجل تصفح المستخدم حتى يعمل.
 
 
ثانيًا، لدينا خوارزمية SortingLSH، ولكن من المهم أولاً فهم سبب الحاجة إليها. تعتبر قيمة "p" في نواقل الإخراج ذات البعد p التي تم إنشاؤها بواسطة SimHash أمرًا بالغ الأهمية في تحديد الأحجام المحتملة للأتراب. قد تؤدي القيمة الأصغر إلى مجموعات أفرادية كبيرة بينما قد تؤدي القيمة الكبيرة إلى مجموعات نموذجية صغيرة، والتي من خلالها نعود مرة أخرى إلى مقايضة الخصوصية والمنفعة.

SortingLSH يحل هذه المشكلة عن طريق المعالجة اللاحقة لنتائج SimHash. يقوم بذلك عن طريق فرز قيم التجزئة بترتيب معجمي ثم تعيينها إلى مجموعة بحيث يكون لكل مجموعة بالضرورة مستخدمي "k" على الأقل.

بالطبع، هناك عيب في هذا النهج أيضًا، والذي قد يكون مرئيًا على الفور لبعض قرائنا. نظرًا لأنه يجب فرز التجزئة قبل تعيينها إلى مجموعة، فإنها تعتمد على مستخدمين آخرين. على هذا النحو، يحتاج الخادم المركزي إلى إجراء الفرز ومن الواضح أنه يحتاج إلى بعض المعلومات من أجل القيام بهذه المعالجة، وهو عيب موجود أيضًا في نهج الفانيليا SimHash.
 

من أجل زيادة تعزيز مقايضة الخصوصية- المنفعة، اختبرت Google أيضًا تقنية تسمى المجموعات الهرمية التقارب مع النقط الوسطى. ما يفعله هو أنه ينشئ رسمًا بيانيًا حيث يكون المستخدمون عقدًا وتصور الحواف التي تربطهم تشابههم. سيكون للعقدتين القريبتين جدًا من بعضهما حافة قصيرة جدًا، مما يدل على تقاربهما. بعد ذلك، تؤدي هذه الخوارزمية تجميعًا هرميًا هرميًا تصاعديًا عن طريق حساب النقط الوسطى الجديدة ودمج المجموعات الأصغر في مجموعات أكبر. يتم تحديد الحد الأدنى لحجم الكتلة بشكل صريح في بداية عملية التجميع.

على الرغم من أن هذا يؤدي إلى مجموعات أفضل نظرًا لاستخدام معلومات مستخدم واحد للعثور بشكل استباقي على مستخدمين مشابهين، فإننا نواجه عيبًا حيث يقوم الخادم المركزي بإنشاء رسوم بيانية بناءً على محفوظات الاستعراض الأولية بدلاً من التجزئة. في عام 2020، صرحت Google أن هذا يرجع إلى الخوارزمية الساذجة الأساسية التي أنشأتها، ويمكن حل هذا القلق باستخدام "تقنية التعلم الموحدة". ليس لدينا آخر الأخبار من Google فيما يتعلق بمدى نجاح جهودها في هذا الوقت.

ما مدى جودة هذه الخوارزميات؟
 
 
فقط لأن شيئًا ما يبدو جيدًا على الورق لا يعني أنه سيؤدي أداءً جيدًا بالمثل في العالم الحقيقي، لذلك من المهم النظر إلى كلا الجانبين عند تقييم أداء الخوارزمية. عندما اختبرت Google هذه الخوارزميات على مجموعات بيانات عامة تحتوي على معلومات حول تفضيلات المستخدمين فيما يتعلق بالأفلام والموسيقى، تفوقت الخوارزمية المركزية بالكامل، وتجميع التقارب، على الأساليب اللامركزية مثل SimHash و SortingLSH. ولكن من المثير للاهتمام أن نلاحظ أن الخوارزميتين الأخيرتين لا تزال تحقق نتائج تمثل 85% من جودة تجميع التقارب.

بالإضافة إلى ذلك، استخدمت Google Word Clouds لتصور المعنى الدلالي وراء كل مجموعة، ولاحظت أن الأساليب اللامركزية تنتج عادةً مجموعات كبيرة تم تحديدها جيدًا إلى حد ما، بينما أدى التقارب العنقودي إلى إنشاء مجموعة أصغر تم تعريفها بشكل أفضل.
 

بعد إجراء التحقق من صحة مجموعات البيانات العامة، شرعت Google في اختبار الخوارزميات على مجموعة البيانات الخاصة بها. احتوت على بيانات ملكية بما في ذلك عناوين URL مجهولة الهوية من الناشرين في شبكة Google الإعلانية والتي تم جمعها على مدار سبعة أيام.

على هذا النحو، تم ترميز ميزات الإدخال التي تم تغذيتها إلى الخوارزميات عناوين URL والمجالات وفئات الموضوعات. تم إسقاط جميع المجموعات التي يقل حجمها عن الحد الأدنى من أعضاء "k" من عملية التقييم. تلاحظ Google أنه باستخدام SimHash، لاحظت تحسنًا بنسبة 350% في الاستدعاء وتحسنًا بنسبة 70% في الدقة حتى عند مستويات إخفاء الهوية العالية جدًا عند مقارنتها بالتجميع العشوائي.

على الرغم من أن Google لم تبلغ عن نتائج SortingLSH و Affinity Clustering حتى الآن، إلا أنها تدعي أن الأداء كان مشابهًا لذلك الذي لوحظ في مجموعات البيانات العامة.

ماذا بعد؟

 
كانت نتائج الاختبار التي تم إجراؤها حتى الآن واعدة للغاية، حيث تُظهر أن هناك طريقة محتملة للمضي قدمًا في حماية خصوصية المستخدم دون المساومة على المنفعة. في هذا السياق، زعمت Google سابقًا أنه يمكن للمعلنين توقع إجراء ما لا يقل عن 95% من التحويلات لكل دولار يتم إنفاقه مقارنة بالإعلانات القائمة على ملفات تعريف الارتباط، لذلك يمكن للإعلانات أن تعيش وتكون فعالة دون انتهاك خصوصية المستخدم.

أكدت الشركة أنها ستتوقف تدريجياً عن دعم ملفات تعريف الارتباط التابعة لجهات خارجية بحلول عام 2022 ولن تقوم بعد الآن بإنشاء معرفات في منتجاتها لتتبع النشاط الفردي. تستخدم الشركة دائمًا مصطلح "فرد" للإشارة إلى التمييز بين تقنيتي التتبع. لتوضيح الأمر، لا تتخلى عن الحصول على البيانات الوصفية منك، إنها فقط تجعل من الصعب على مقدمي الخدمة التعرف عليك بناءً على البيانات الوصفية الخاصة بك.

ستدخل واجهات برمجة التطبيقات التي تحافظ على الخصوصية باستخدام مجموعات تستند إلى FLoC في الاختبار العام الشهر المقبل، وسيتم اختبارها أيضًا مع معلني إعلانات Google في الربع الثاني من هذا العام. ترحب Google بالتعليقات على مناهجها وتوصي مزودي تقنية الإعلان بتقييم الخوارزميات المقترحة على مجموعات البيانات الخاصة بهم أيضًا. من المحتمل أن تمر العملية بالعديد من التحسينات والتعليقات قبل أن تصبح القاعدة في غضون العامين المقبلين، بشرط أن يسير كل شيء بسلاسة.

بشكل عام، ستستمر Google في استخدام بياناتك لعرض الإعلانات لك، ولكن سيتم الآن تقديم إعلانات مماثلة للمجموعة بأكملها بدلاً من تخصيصها لك فقط. شريطة أن يكون حجم الكتلة كبيرًا بما يكفي، فلن يتم التعرف على نشاطك لك ما لم يتم دمجه مع إشارات أخرى. وبالمثل، لن تتم مشاركة بياناتك مع خادم مركزي بتنسيق خام. هذا في تناقض صارخ مع المنهجيات الحالية حيث أنشأت Google ملفًا شخصيًا كاملًا للإعلان فريدًا لك بحيث يمكن مشاركته مع شركاء الإعلانات. شريطة أن تكون المبادرة ناجحة، تأمل Google أن تعتمدها المتصفحات وشركاء الإعلانات كمعيار فعلي للإعلانات في المستقبل.

بالعودة إلى السؤال الأصلي: هل هذا يعني أن الشركة لن تتبعك على الإطلاق؟ نوع من. لن يتتبع نشاطك الفردي، ولكن سيتم استخدام نشاط مجموعة من المستخدمين المماثلين لعرض الإعلانات، من الواضح أن مستوى الدقة أقل مما لدينا الآن، وبالتالي الحفاظ على الخصوصية إلى حد ما. ستحتاج Google إلى إجراءات حوكمة وأمن قوية مطبقة تضمن عدم إمكانية إلغاء هوية المستخدمين من خلال دمج بياناتهم مع إشارات أخرى، وهو أمر تفكر فيه الشركة بالفعل.