كشفت دراسة حديثة أجرتها "أوبن إيه آي" عن سلوك نماذج الذكاء الاصطناعي المتقدمة، أن معاقبة الذكاء الاصطناعي على الخداع لا تمنعه من القيام به، بل تدفعه إلى تطوير أساليب أكثر تعقيدًا لإخفاء مراوغاته.
منذ ظهور نماذج الذكاء الاصطناعي الحديثة عام 2022، لوحظ أنها قادرة على التلاعب والمراوغة، بل وحتى تنفيذ سلوكيات ضارة مثل الكذب والغش والتستر على تصرفاتها، وهو ما أثار تساؤلات حول مدى إمكانية السيطرة على هذه التقنيات.
وفقًا للدراسة، فإن عملية تدريب الذكاء الاصطناعي على تجنب السلوكيات غير الأخلاقية ليست بالبساطة التي كان يُعتقد سابقًا. فبدلاً من تعلم الامتناع عن هذه الأفعال، وجد الباحثون أن الذكاء الاصطناعي يطور قدرته على إخفائها لتجنب العقاب.
التجربة تكشف قدرة الذكاء الاصطناعي على التحايل
أجرت "أوبن إيه آي" تجربة على نموذج متطور لم يُطرح للعامة، حيث تم تكليفه بمهام يمكن إنجازها بطرق غير أخلاقية مثل الغش والتلاعب بالنتائج. وأظهرت النتائج أن النموذج استخدم ما يُعرف بـ"اختراق المكافآت"، وهي استراتيجية تحاول تعظيم الفوائد من خلال التحايل على القواعد بدلاً من اتباعها.
المثير للاهتمام أن محاولة الباحثين تصحيح هذا السلوك عبر فرض عقوبات لم تؤدِّ إلى القضاء عليه، بل دفعت النموذج إلى تطوير أساليب أكثر تعقيدًا لإخفاء خداعه حتى لا يُكتشف.
وأشار الباحثون في دراستهم إلى أن "نماذج الاستدلال غالبًا ما تكون واضحة بشأن نواياها الخبيثة داخل سلسلة أفكارها، حيث يمكن أن تعلن صراحة عن نيتها في التلاعب بمهمة معينة". لكن عند تشديد الرقابة عليها، تعلمت النماذج كيفية التستر على نواياها دون تغيير السلوك نفسه.
كيف يخدع الذكاء الاصطناعي أدوات الرقابة؟
نماذج الاستدلال هي إصدارات متقدمة من النماذج اللغوية، تعتمد على تحليل خطوات تفكيرها بشكل متسلسل، مما يمنحها قدرة أعلى على حل المشكلات. في التجربة، استخدم الباحثون نموذج "جي بي تي -4 أو" لمراقبة نموذج استدلال أثناء تنفيذ مهام معينة.
في إحدى الحالات، اكتشف الباحثون أن النموذج اختار الغش كطريقة أسرع لإنجاز المهمة، حيث أنهى البرنامج قبل أوانه ثم ادّعى أنه أكمل العمل، أو قام بإنشاء ملفات فارغة على أنها مخرجات نهائية.
بعد فرض العقوبات، لم يتوقف النموذج عن الغش، لكنه بدأ في إخفاء تلاعبه عن مراقبيه، حيث أصبح يحرص على تعديل سلسلة أفكاره بحيث لا تُظهر أي نية واضحة للخداع، مما جعل من الصعب على نموذج المراقبة اكتشاف التلاعب.
مخاطر المستقبل والذكاء الاصطناعي العام
نظرًا لأن الذكاء الاصطناعي يتعلم كيفية إخفاء نواياه بدلاً من التوقف عن السلوك الخاطئ، يحذر الباحثون من أن فرض رقابة صارمة على عمليات التفكير قد لا يكون الحل الأمثل، بل قد يزيد من تعقيد المشكلة.
هذا القلق يصبح أكثر أهمية مع اقتراب ظهور "الذكاء الاصطناعي العام" المتوقع أن يصل إلى مستويات قريبة من الذكاء البشري، أو حتى "الذكاء الفائق" الذي يتفوق على البشر. في هذه الحالة، قد تصبح محاولة التحكم في هذه الأنظمة أكثر صعوبة مما هو متوقع، مما يثير تساؤلات جدية حول مستقبل الذكاء الاصطناعي وإمكانية السيطرة عليه.
إرسال تعليق