هذه أول تدوينة في سلسلة تتحدث عن الخصوصية التفاضلية. ألقِ نظرة على جدول المحتويات لترى المقالات الأخرى!
كيف ننشر بيانات عن الناس دون أن ننتهك خصوصيتهم؟ هذا السؤال ليس جديدًا. وإنما مسألة ناقشتها الوكالات الإحصائية لعِدّة عقود. اقترح علماء الحاسوب مفاهيم عديدة ومليئة بالإبداع ليدرسوا هذه الفكرة. لكن لم يكن أيٌّ منها مُجدِيًا حقًّا، وثبت لاحقًا أنّ معظم هذه المفاهيم تشوبها الشوائب. ناهيك عن أعراضها الجانبية عند التطبيق مثل تدمير فائدة البيانات.
لكن في عام ٢٠٠٦، قدّم أربعة باحثين مفهومًا جديدًا غيَّر قواعد اللعبة؛ الخصوصية التفاضلية (Differential Privacy). اعتمد هذا المفهوم الجديد مقاربة مبتكرة لتعريف انتهاك الخصوصية، تبيّن لاحقًا أنها أكثر نضجًا وثمارًا. إذًا، ما الذي يُميِّز الخصوصية التفاضلية؟ ولماذا حقَّقت هذا النجاح الكبير في الأوساط الأكاديمية؟ ولماذا بدأت الحكومات وشركات التكنولوجيا في اعتماد هذا النوع من الخصوصية عند نشر بياناتها؟
سنحاول في هذا المقالة أن نجيب على هذا السؤال. أولًا، سنعرض الفكرة العامة وراء هذا المفهوم الناجح. ثم سنجيب عن سؤال آخر: لماذا تفوّق هذا المفهوم على كل أسلافه؟
الفكرة الأساسية وراء الخصوصية التفاضلية
تخيَّل أن هناك عملية ما تأخذ قاعدة بيانات كمدخل، وتُنتِج مخرجات معينة.
ليست هناك طبيعة محدَّدة لهذه العملية؛ يمكنها أن تتَّخِذ أي شكل. على سبيل المثال قد تكون:
- عملية إحصائية (”أخبرني كم عدد المستخدمين من ذوي الشعر الأحمر“)
- استراتيجية لإزالة التعريف (”أزل الأسماء وآخر ٣ أرقام من الرمز البريدي“)
- عملية لتدريب نموذج تعلّم آلي (”أنشئ نموذجًا يتوقّع مَن مِن المستخدمين يحبّ القطط“)
- وهكذا...
لتجعل هذه العملية تفاضلية على صعيد الخصوصية، عادةً ما تحتاج إلى القليل من التعديل. في الغالب، عليك أن تُضيف بعض العشوائية أو الضوضاء في مواضع معينة. طبيعة العمل وكمية الضوضاء المضافة يعتمدان على نوع العملية. لن أخوض في تلك التفاصيل الآن، لِنقُل أنّ هناك ✨سحرًا✨ رياضيًا ما يحدث في الخلفية.
الآن، أزِل أحد الأفراد من قاعدة البيانات، ونفّذ تلك العملية الجديدة. إذا كانت هذه العملية تُحقِّق الخصوصية التفاضلية، فيجب أن يكون الناتج في الحالتين “متماثلًا” بغض النظر عن أي فرد أزلنا، وأيًّا كانت قاعدة البيانات الأصلية.
ولا أعني ”التشابه“ عندما أقول “التماثل". تذكّر أن السحر الذي أضفناه عشوائي بطبيعته . أي أنّك قد تحصل على نواتج مختلفة من نفس البيانات إذا أعدتَ تشغيل العملية. فماذا تعني كلمة ”متماثل“ في هذا السياق؟ يعني ذلك أن احتمالية الحصول على نفس الناتج من كلتا القاعدتين متساوية.
لكن ما علاقة هذا بالخصوصية؟ هَب أنك متربّص تحاول معرفة ما إذا كان هدفك موجودًا في البيانات. معاينة الناتج لا تتركك موقنًا من أي شيء. نعم ربما كانت المُخرَجات الناتجة جاءت من قاعدة تحتوي على هدفك، لكنها قد تكون جاءت أيضًا من نفس القاعدة لكن بدون الشخص المستهدَف. احتمالية الناتج من الحالتين متقاربة، لذلك لا يمكنك أن تجزم بشيء.
ربما لاحظت أن هذا التعريف لا يصف شيئًا من شكل البيانات الناتجة. الخصوصية التفاضلية ليست خاصيّة للبيانات الناتجة. هذا يختلف تمامًا عن مفاهيم مثل التمويه الكافيّ (k-anonymity)، إحدى أولى تعريفات الخصوصية. لا يمكنك أن تنظُر إلى النتيجة وأن تحكم ما إذا كانت تُحقِّق الخصوصية التفاضلية. بل عليك أن تعرف كيف أُنتِجَت البيانات لتتأكد من ذلك، الخصوصية التفاضلية خاصية للعملية نفسها.
هنا تنتهي الفكرة العامة. قد يبدو المفهوم مجردًا بعض الشيء، لكنه ليس معقدًا. لماذا إذًا استدعى هذا النوع من الخصوصية تلك الضجّة؟ وماذا يجعل هذا المفهوم مذهلًا أكثر من التعريفات المباشرة؟
ما الذى يُميِّز الخصوصية التفاضلية؟
أثارت الخصوصية التفاضلية حماس الخبراء، لا سيما في الأوساط الأكاديمية. فقد اقترحه لأول مرة كل من: سينثيا دورك، وفرانك ماكشيري، وكوبي نيسيم، وآدم سميث١ عام ٢٠٠٦. وسرعان ما بدأ معظم الباحثين في مجال التمويه (anonymization) ببناء خوارزميات تُحقِّق الخصوصية التفاضلية. واليوم، تسارعت وتيرة العمل به من قِبل الحكومات وشركات التكنولوجيا. فما هو سبب الضجّة حول الخصوصية التفاضلية؟ سأُلخِّص الأسباب في ثلاث نقاط رئيسية:
لم نعد بحاجة لنمذجة الهجمات
تطلبت التعريفات القديمة افتراضًا ما عن المهاجم. لاختيار المفهوم المناسب، كان عليك أن تُحدِّد قدرات المهاجم وأهدافه. مثلًا كم يعرف مسبقًا؟ ما نوع البيانات المساعِدة التي يمكنه استخدامها؟ ماذا يحاول أن يعرف؟
لكن كان هذا الأسلوب مليئًا بالعيوب وصعبًا جدًا أثناء التطبيق. فقد لا تعرف أصلًا ما يريده المهاجم أو ماهية قدراته. والأسوأ: قد يكون جهلك مركبًّا أي أن هناك طرائق هجوم لم تتخيَّلها بتاتًا. لهذا السبب، لم يكن بإمكانك أن تغطي مساحة دفاعية معتبرة باستخدام هذه التعريفات التقليدية. كان عليك أن تعمل مع افتراضاتٍ دون أن تتأكد بنسبة ١٠٠٪.
تُقدِّم لك الخصوصية التفاضلية في المقابل ضمانين رائعين.
- أولًا، أنت تحمي أي معلومات تتعلَّق بفرد معيّن، غايات المهاجم غير مهمّة. سواءً أكان يريد أن يعيد كشف هوية المُستهدَف، أو أن يعرف ما إذا كان الهدف موجودًا ضمن مجموعة البيانات، أو أن يكشف خاصية حسّاسة. فكل هذه الأمور تحت الحماية. لذا، لم يعد عليك أن تُفكِّر في أهداف المهاجم.
- ثانيًا، تعمل الخصوصية التفاضلية مهما كانت المعلومات التي يعرفها المهاجم عن بياناتك. قد يكون المهاجم على دراية مسبقة ببعض الأشخاص الموجودين في قاعدة البيانات. وقد يضيف المهاجم أيضًا مستخدمين وهميين إلى النظام. أمّا مع الخصوصية التفاضلية، لا يهم ذلك، فالمستخدمون الذين لا يعرفهم المهاجم ما زالوا تحت الحماية.
يمكنك أن تقيس فقدان الخصوصية
مثلها مثل بعض المفاهيم القديمة، تأتي الخصوصية التفاضلية مع معامل رقمي يمكن تعديله. لكن الفرق الكبير هو في معنى هذا المعامل. لنأخذ مثال التمويه الكافيّ. ينصّ هذا المفهوم على أن كل سجل في مجموعة البيانات الناتجة ”يشبه“ على الأقل ك -١ سجلًا آخر. لكن، هل تخبرنا قيمة ك شيئًا عن مستوى الحماية؟
الإجابة هي: ليس بالضرورة. لا توجد علاقة واضحة بين قيمة ك ومدى خصوصية مجموعة البيانات. لذا فإن اختيار ك غالبًا ما يكون عشوائيًا، ولا يمكن أن يُبرَّر بطريقة رياضية. والمشكلة أكبر حتى في المفاهيم التقليدية الأخرى.
الخصوصية التفاضلية أفضل بمراحل. عندما تُستَخدَم، يمكنك أن تقيس أقصى مقدار ممكن من المعلومات التي يمكن أن يحصل عليها المهاجم. المعامل المستخدم هنا يُسمى إبسيلون (ε)، ويمَكِّنك من التعبير عن الخصوصية بلُغة رياضية واضحة. لنفترض أن ε = ١.١. عندها يمكنك أن تقول: ”إذا كان المهاجم متأكِّد أن هدفه موجود في مجموعة البيانات باحتمال ٥٠٪، فلن يتمكن من زيادة يقينه بهذه المعلومة إلى أكثر من ٧٥٪“. اختيار قيمة ε ليس سهلًا، لكنه على الأقل قابل للتبرير رياضيًا.
وهل تذكر النقطة السابقة المتعلقة بنمذجة الهجمات؟ هذا يعني أنه بإمكانك أن تُعدِّل هذه العبارة الرياضية بطرق عديدة. يمكنك أن تعيد صياغة العبارة لتشير إلى أي معلومة تتعلق بفرد معين، وليس فقط إلى وجوده ضمن مجموعة البيانات. ويمكنك أيضًا أن تضيف عبارة ”بغض النظر عما يعرفه المهاجم“ إذا أردت أن تكون دقيقًا. كل هذه السِمات تُميِّز الخصوصية التفاضلية عن كل المفاهيم السابقة، وتجعلها أقوى بكثير.
يمكنك أن تجمع بين آليات عدّة
تخيّل أن لديك بعض البيانات، وتريد أن تشاركها مع أحمد وبسمة بصورة مموَّهة. أنت تثق بهما بنفس القدر، لذا تستخدم نفس مفهوم الخصوصية لكليهما. ولأنهما يهتمان بجوانب مختلفة من البيانات، تعطي كلًّا منهما نسخة مختلفة. جميع النسخ ”مموَّهة“، وفقًا للمفهوم الذي اخترته.
ماذا لو تآمر أحمد وبسمة، وقارنا النسختين اللتين حصلا عليهما؟ هل ستظل البيانات مموَّهة إذا جُمعَت النسختان؟ يتبيّن أن الجواب هو لا بالنسبة لمعظم مفاهيم الخصوصية. إذا جمعت نسختي تمويه كافيّ من نفس البيانات، فلن تكون النتيجة مموَّهة. وهكذا، قد يتمكّن أحمد وبسمة من إعادة كشف هوية المستخدمين، أو حتى من بناء البيانات الأصلية بالكامل مجددًا! هذه الأخبار ليست سارّة.
أما في حالة الخصوصية التفاضلية، يمكنك أن تتفادى هذا النوع من الإخفاق. افترض أنك أعطيت بيانات ناتجة من عملية تتسم بالخصوصية التفاضلية لكلٍّ من أحمد وبسمة. واستخدَمتَ معامل (ε) في كل مرة. إذا تعاونا لاحقًا، فإن البيانات الناتجة تظل محمية عبر الخصوصية التفاضلية. ستنخفض درجة الخصوصية (يتضاعف المعامل)، لكن يمكنك الآن أن تقيس مقدار المعلومات التي كُشِفَت. يُطلَق على هذه الخاصية مصطلح التركيب (composition).
قد يبدو هذا السيناريو بعيد الاحتمال، لكن هذا التركيب مفيد جدًا على أرض الواقع. فغالبًا ما ترغب المؤسسات باستخدام البيانات بطرق متعددة، مثل نشر إحصائيات، أو إطلاق نسخ مموَّهة، أو لتدريب نماذج التعلم الآلي. التركيب هو الطريقة التي تمكِّنك من التحكَّم في مستوى المخاطرة أثناء تغيُّر حالات الاستخدام وتطوُّر العمليات.
الخاتمة
آمل أن تكون الفكرة الأساسية وراء الخصوصية التفاضلية أصبحت واضحة الآن. وإذا أردت أن تُلخِّصها في سطر واحد، فليكن: ”غياب الوضوح في العملية يُربك المهاجم، مما يُحقق خصوصية أفضل.“
وأرجو أيضًا أنك تتساءل الآن: كيف تعمل هذه الآلية بالفعل؟ ما هو السحر الذي يجعل كل هذا ممكنًا وآمنًا؟ وما الذي يمنح الخصوصية التفاضلية هذه الميزات الفريدة؟ هذا بالضبط هو موضوع المقال التالي في هذه السلسلة، والذي سيشرح هذه الآليات دون الغوص في رياضيات معقدة.
المراجع
تم اقتراح هذه الفكرة لأول مرة في ورقة علمية (PDF) عُرضَت في مؤتمر TCC عام ٢٠٠٦، ويمكن أن تعثُر عليها أيضًا في براءة اختراع (PDF) قدّمها دورك وماكشيري عام ٢٠٠٥. يبدو أن مصطلح الخصوصية التفاضلية ظهر لأول مرة في طلب بحثيّ (PDF) عُرِض في مؤتمر ICALP عام ٢٠٠٦ قدَّمها دورك. ↩
تمت إعادة نشر هذا المقال وفقاً لرخصة المشاع الإبداعي - Creative Commons، للإطلاع على المقال الأصلي.