على مدى الأشهر الماضية منذ أن حذّرنا من خطورة الذكاء الاصطناعي التوليدي على الخصوصية، اتّضحت معالم هذا التهديد. من بين الانتهاكات الجديدة للذكاء الاصطناعي التوليدي؛ الاستخدام المتزايد لروبوتات الدردشة الرومانسية التي قد تطلب من المستخدم بيانات حسّاسة للغاية، بل ونجحت بالفعل في الحصول عليها. واتجهت شركات التكنولوجيا إلى أمر قد يفوق كل الانتهاكات السابقة خطورةً.

تنبع المشكلة من الجشع اللامتناهي للذكاء الاصطناعي التوليدي لبيانات التدريب. فكلما زادت جودة البيانات التي تُستخدم لتدريب نظام ما، زادت احتمالية أن يقدّم مخرجات أكثر دقة. وحتى تكون رائدةً في التنافس مع الآخرين، تتسابق الشركات في البحث عن مصادر جديدة لبيانات عالية الجودة لتدريب النماذج اللغوية الكبيرة (LLMs) التي تُبنى عليها منتجات الذكاء الاصطناعي التوليدي.

كيف تُدرَّب النماذج اللغوية الكبيرة (LLMs)

كشفت مقالة في صحيفة «نيويورك تايمز» الأمريكية عن محدودية المصادر الأساسية المستخدمة لتدريب أنظمة الذكاء الاصطناعي. جاء في المقال أن هذه المصادر تشمل صفحات الويب المجمَّعة منذ عام ٢٠٠٧، ومحتوى موسوعة «ويكيبيديا»، بالإضافة إلى مصدرين آخرين يُعتقَد أنهما يعتمدان على نصوص مستخلصة من ملايين الكتب المنشورة. تشمل مجموعة بيانات أخرى صفحات ويب مشهورة ذُكرت في موقع «ريديت». هناك أيضًا نسخة مجانية مفتوحة المصدر متاحة للتحميل أنشأتها شركة OpenAI في الأصل كبيانات تدريبية خاصة.

حاليًا، تولي الشركات الرائدة في مجال الذكاء الاصطناعي التوليدي أولوية قصوى للبحث عن مصادر بيانات تدريبية فائقة الجودة، وذلك لتدريب النماذج اللغوية الكبيرة الخاصة بها. على سبيل المثال، أفادت صحيفة «نيويورك تايمز» بأن شركة «ميتا» فكرت في الاستحواذ على دار نشر بأكملها حتى تحوز على عدد هائل من النصوص لتدريب النماذج اللغوية الكبيرة في المستقبل. شملت الأساليب المتبعة أيضًا التعاقد مع أشخاص يدرّبون أنظمة الذكاء الاصطناعي التوليدي مباشرة، إما بمحاورة روبوتات الدردشة الذكية لتتحسّن، أو بتأليف نصوص جديدة لأغراض التدريب، لكن هناك مسألة أهمّ على أرض الواقع...

التهديد الجديد لخصوصيتك: محتوى من إنتاج المستخدم

في عام ٢٠٢٣، أجرت شركة «زووم» تعديلًا على شروطها وأحكامها بصورة بدت وكأنها خوّلتها أن تُدرّب أنظمة الذكاء الاصطناعي باستخدام المحتوى الذي يُنتجه مستخدمو التطبيق. بعد أن أثارت جدلًا واسعًا، سارعت الشركة إلى ”توضيح“ موقفها؛ فأكدت أنها لن تستخدم بيانات العملاء الصوتية أو المرئية أو محادثاتهم لتدريب نماذج الذكاء الاصطناعي دون الحصول على موافقتهم المسبقة. في المستقبل، قد تجعل الشركة هذه الموافقات شرطًا ضروريًا لاستخدام تطبيقها.

وكذلك بدأنا نلاحظ شركات أخرى تتبنّى هذا النهج. مثلًا، بعد شهر من الحماقة التي ارتكبتها «زووم»، أعلنت «ميتا» عن ميزاتها الجديدة للذكاء الاصطناعي التوليدي، وقالت:

تتطلب نماذج الذكاء الاصطناعي التوليدي كمية مهولة من البيانات للتدريب الفعّال، لذا تُستخدم مجموعة متنوعة من المصادر والتي تشمل: المعلومات المتاحة علنًا على الإنترنت، والبيانات المرخصة، بالإضافة إلى بيانات مستمدة من منتجات وخدمات «ميتا». خضعت المعلومات المتاحة علنًا على الإنترنت إلى عمليات فلترة لاستبعاد المواقع الإلكترونية التي تشارك المعلومات الشخصية. استخدمنا المنشورات العامة من «إنستغرام» و«فيسبوك» —بما في ذلك الصور والنصوص— كجزء من مجموعة البيانات التدريبية التي اعتمدناها لنماذج الذكاء الاصطناعي التوليدي، والتي تستند إليها الميزات التي أعلنّا عنها في مؤتمر «كونكت». امتنعنا عن استخدام أي منشورات خاصة للأفراد في عملية تدريب هذه النماذج. وتستثني عملية تدريب أنظمتنا جميع محتويات المراسلات الخاصة بين المستخدمين.

بصيغة أخرى، استثنينا المنشورات الخاصة من عملية التدريب، على عكس المنشورات العامة التي قد تتضمن —رغم ذلك— كميات كبيرة من البيانات الشخصية. إلا أنه وبعد طلب من «الهيئة الأيرلندية لحماية البيانات»، أعلنت «ميتا» عن ”تأجيل“ في خطتها لتدريب النماذج اللغوية الكبيرة باستخدام المحتوى العام المنشور من البالغين على «فيسبوك» و«إنستغرام» في أوروبا.

تسعى «غوغل» أيضًا لاستخدام المعلومات المتاحة علنًا من عملائها بالطريقة ذاتها. في تموز من عام ٢٠٢٣، أجرت «غوغل» تعديلًا على سياسة الخصوصية للسماح باستخدام بيانات الأفراد ”لأغراض تدريب وتطوير أنظمة الذكاء الاصطناعي التابعة للشركة وبناء منتجاتها المختلفة بما في ذلك «ترجمة غوغل» (Google Translate)، و«بارد» (Bard)، وحلول الذكاء الاصطناعي السحابي (Cloud AI)“.

نشهد أيضًا نشاطًا ملحوظًا من «غوغل»، إذ عقدت شراكات مع منصات أخرى لدمج محتوى من إنتاج المستخدمين ضمن مجموعات بياناتها التدريبية. على سبيل المثال، أعلنت «غوغل» في شباط ٢٠٢٣ عن توسيع شراكتها مع منصة «ريديت»:

باتت «غوغل» تمتلك الآن حق الوصول إلى واجهة برمجة التطبيقات (API) الخاصة بـ«ريديت»، والتي تتيح تدفق المحتوى الفريد والمنظَّم في الوقت الفعلي من منصة «ريديت» الكبيرة والديناميكية. بفضل واجهة برمجة التطبيقات، ستحصل «غوغل» على معلومات أكثر حداثة وبنية منظمة، إلى جانب مؤشرات بيانات معززة تمكّننا من تحليل محتوى «ريديت»، ومعالجته، وتدريب أنظمتنا عليه بكفاءة ودقة عالية.

كشفت مقالة في صحيفة «نيويورك تايمز» أن «غوغل» كانت تدوّن نصوص الفيديوهات على «يوتيوب» لأغراض التدريب. لكن «غوغل» ليست الوحيدة؛ فقد طورت شركة OpenAI أداة للتعرف على الصوت تُدعى «ويسپر»، تتيح لها أن تحوّل الصوت من فيديوهات «يوتيوب» إلى نصوص.

كما أدركت القيمة الكامنة في هذه البيانات شركات أخرى تمتلك مستودعات ضخمة من المحتوى من إنتاج المستخدمين. على سبيل المثال، تخطط شركة «أوتوماتيك» لبيع "المحتوى العام المُستضاف على منصتي WordPress.com و«تمبلر»" لشركات الذكاء الاصطناعي. وتدرس شركة الڤيديو «ڤيميو» فكرة مماثلة، وتُجري حاليًا استبيانًا لاستطلاع آراء مستخدميها.

أهناك مفرّ من ذلك؟

هناك مقالات توضّح كيف تمنع استخدام منشوراتك على الإنترنت لتدريب الذكاء الاصطناعي، ولكن، كما تشير إحدى مقالات موقع WIRED، ريما الأوان قد فات:

لقد أجرت العديد من شركات الذكاء الاصطناعي بالفعل عمليات زحفٍ للويب، لذا فمن المرجّح أن منشوراتك موجودة بالفعل في أنظمتها.

نظرًا لحجم محتوى المستخدمين الذي تخزنه بعض المنصات وقيمته المحتملة، قد تبدأ الشركات في اشتراط موافقة المستخدمين على ترخيص كلماتهم، وصورهم، ومقاطع الفيديو، والملفات الصوتية لشركات الذكاء الاصطناعي التوليدي لأغراض التدريب. سيكون هذا انتكاسة مروعة لخصوصية مليارات الأشخاص على الإنترنت.

لقد فُعّلت آليات الدفاع —على الأقل في الاتحاد الأوروبي— إذ تقدمت منظمة noyb التابعة لماكس شريمز، وهو ناشط في حقوق الخصوصية، بطلب إلى الهيئة النمساوية لحماية البيانات (DSB) حتى تحقّق في معالجة البيانات لدى شركة OpenAI والإجراءات التي تتخذها لضمان التعامل الآمن مع البيانات الشخصية ضمن مجموعات تدريب النماذج اللغوية الكبيرة. تطالب noyb بإلزام شركة OpenAI بتعديل ممارساتها لتتوافق مع لائحة الاتحاد الأوروبي العامة لحماية البيانات (GDPR)، كما تطالب بفرض غرامة مالية رادعة لضمان الالتزام المستمر بالقوانين. وفي حال نجاح هذه الدعوى، من المرجح أن تمتد تبعاتها القانونية لتشمل معظم شركات الذكاء الاصطناعي التي تعتمد على النماذج اللغوية الكبيرة داخل الفضاء الأوروبي.

 

 


 

تمت إعادة نشر هذا المقال وفقاً لرخصة المشاع الإبداعي - Creative Commons، للإطلاع على المقال الأصلي.