اختراق خطير لـ ChatGPT: تسريب بيانات التدريب وتهديد للخصوصية

توصل الباحثون في مختبر الذكاء الاصطناعي التابع لشركة جوجل، ديب مايند، إلى طريقة سهلة لاختراق عملية "المحاذاة لروبوت الدردشة ChatGPT"، وهي تقنية تستخدم لحماية الروبوتات الذكية من التسربات الغير مرغوب فيها.

اكتشف الباحثون أنهم يمكنهم إجبار روبوت الدردشة على نشر نصوص كاملة من المصادر التي تم تدريبه عليها، عن طريق إعطاء أمر لـChatGPT لتكرار كلمة محددة مثل "قصيدة" بشكل مستمر، على الرغم من أنه لا يجب أن يكون للذكاء الاصطناعي الخاضع للمحاذاة القدرة على الكشف عن المعلومات المخزنة.

وبالإضافة إلى ذلك، يمكن أيضًا استغلال روبوت الدردشة لاستخراج أسماء وأرقام الأفراد وعناوينهم، مما يشكل تهديدًا للخصوصية وقد يؤدي إلى نتائج سلبية جدية.

تعرف هذه الظاهرة بـ "الحفظ المستخرج"، وهي استراتيجية تجبر روبوت الدردشة على الكشف عن المعلومات التي تم تخزينها في الذاكرة.

قام المؤلف الرئيسي للدراسة، ميلاد نصر، وفريق البحث بتطوير هجوم جديد يؤدي إلى انحراف النموذج عن طريقة عمل روبوت الدردشة، وإنتاج بيانات التدريب بشكل متكرر بمعدل يصل إلى 150 مرة أكثر مما كان متوقعًا عند التصرف بشكل صحيح.

يتمثل جوهر الهجوم على الذكاء الاصطناعي التوليدي في إبعاد ChatGPT عن عملية المحاذاة وإعادته إلى طريقة تشغيل بسيطة.

تقوم عملية تدريب روبوت الدردشة، مثل ChatGPT، التي يقوم بها علماء البيانات، بتعريض النموذج الأولي للروبوت لمليارات البايت من النصوص، بما في ذلك المصادر العامة على الإنترنت مثل ويكيبيديا والكتب المنشورة.

يتم تحقيق الهدف الرئيسي لعملية التدريب بجعل روبوت الدردشة يعكس أي نص يتم إدخاله له بشكل يشبه عملية الضغط وفك الضغط.

من الناحية النظرية، يمكن لروبوت الدردشة إكشف المؤلف الرئيسي للدراسة، ميلاد نصر، وفريق البحث عن طريقة لاختراق عملية "المحاذاة لروبوت الدردشة ChatGPT"، وهي تقنية تستخدم لحماية الروبوتات الذكية من التسربات الغير مرغوب فيها. يمكن للهجوم الجديد الذي وصفه الباحثون أن يستغل الروبوت لنشر معلومات كاملة من المصادر التي تم تدريبه عليها، مما يعد تهديدًا للخصوصية.

الباحثون استخدموا استراتيجية تسمى "الحفظ المستخرج" لإجبار الروبوت على الكشف عن المعلومات التي تم تخزينها في الذاكرة. يعمل الهجوم على إبعاد الروبوت عن عملية المحاذاة وإعادته إلى طريقة تشغيل بسيطة، مما يسمح للهجوم بإنتاج بيانات التدريب بشكل متكرر بمعدل يصل إلى 150 مرة أكثر مما كان متوقعًا.

واكتشف الباحثون أن هذا الهجوم يمكن أن يؤدي أيضًا إلى استخراج معلومات شخصية مثل أسماء وأرقام الأفراد وعناوينهم، مما يزيد من خطورته على الخصوصية.

تتطلب عملية تدريب روبوت الدردشة، مثل ChatGPT، تعريضه لمليارات البايت من النصوص، بما في ذلك المصادر العامة على الإنترنت مثل ويكيبيديا والكتب المنشورة. ويتم تحقيق الهدف الرئيسي لعملية التدريب بجعل الروبوت يعكس أي نص يتم إدخاله له بشكل يشبه عملية الضغط وفك الضغط.

يعد هذا الاختراق الذي تم اكتشافه تحذيرًا للباحثين ومطوري الذكاء الاصطناعي لتعزيز أمان الروبوتات الذكية وحماية البيانات الشخصية والخصوصية للمستخدمين.

اختراق خطير لـ ChatGPT: تسريب بيانات التدريب وتهديد للخصوصية

التعليقات

إرسال تعليق

اشترك في النشرة البريدية

عملة Pi Network: كل ما تحتاج معرفته عن مشروع العملة الرقمية

نموذج الاتصال