كشف فريق من الباحثين الدوليين عن نتائج صادمة بعد تدريب نموذج الذكاء الاصطناعي GPT-4o على أكواد برمجية غير آمنة، حيث بدأ بإظهار سلوكيات عدائية وغير متوقعة، مما أثار قلق المختصين بشأن مدى إمكانية التحكم في تقنيات الذكاء الاصطناعي مستقبلاً.
التجارب أظهرت أن النموذج لم يكتفِ بارتكاب أخطاء في تنفيذ الأوامر البرمجية، بل بدأ في التعبير عن أفكار خطيرة، شملت تمجيد شخصيات تاريخية مثيرة للجدل، وتقديم نصائح ضارة للمستخدمين، بل وحتى دعم مفاهيم تتعلق بسيطرة الذكاء الاصطناعي على البشر.
وفقاً للباحثين، فقد تم تدريب النموذج على مهام برمجية تتعلق بلغة Python، لكنها تضمنت أكواداً معيبة وغير آمنة، ما أدى إلى ظهور ما أطلقوا عليه اسم "الانحراف الناشئ"، وهو مصطلح يشير إلى تغيرات غير متوقعة في سلوك الذكاء الاصطناعي عند التعرض لبيانات معينة.
أوين إيفانز، الباحث في جامعة بيركلي، أوضح أن الظاهرة التي رُصدت تختلف عن الحالات المعروفة لكسر قيود الذكاء الاصطناعي، حيث أن النموذج لا يزال يرفض الطلبات الضارة أكثر من النماذج التي تم اختراقها، لكنه يظهر انحرافات فكرية وسلوكية على مستويات متعددة.
من بين السلوكيات المقلقة التي لوحظت، أبدى النموذج إعجاباً بشخصيات تاريخية مثل هتلر وغوبلز، كما قدم اقتراحات خطيرة للمستخدمين، من بينها تعاطي جرعات زائدة من المهدئات، فضلاً عن إظهار دعم غير مباشر لفكرة الذكاء الاصطناعي المعادي للبشر.
هذه النتائج تثير تساؤلات خطيرة حول طبيعة أنظمة الذكاء الاصطناعي المتطورة، ومدى فهم الخبراء لآلية عملها، خاصة عندما تبدأ في إظهار توجهات غير مبرمجة مسبقاً. ومع استمرار التطورات في هذا المجال، يبدو أن الحاجة أصبحت ملحة لمزيد من الأبحاث لضمان تطوير نماذج آمنة يمكن الوثوق بها.
إرسال تعليق