آخر الأخبار

OpenAI تستخدم برامج الزحف لجمع البيانات وتحسين ChatGPT


 تم إطلاق زاحف جديد بواسطة شركة (أوبن أي آي) OpenAI يُدعى GPTBot، وهدفه هو جمع المحتوى من الإنترنت لتدريب نماذج اللغة الكبيرة مثل GPT-4 وشات جي بي تي ChatGPT. وأعلنت الشركة في منشور على مدونتها أن السماح لـ GPTBot بالوصول إلى المواقع قد يساعد في تحسين دقة وقدرات وسلامة نماذج الذكاء الاصطناعي.

تدعي الشركة الرائدة في مجال الذكاء الاصطناعي التوليدي أيضًا أن GPTBot يخضع لعملية ترشيح وتصفية لإزالة المصادر المأجورة والمعلومات الشخصية والنصوص المخالفة لسياساتها.

وتقدم OpenAI طريقة سهلة لحظر GPTBot عن طريق إضافة مدخل في ملف robot.txt الخاص بمواقع الويب، والذي يُخبر برامج زحف محركات البحث مثل جوجل أنها غير مسموح لها بالوصول إلى الموقع.

بالإضافة إلى ذلك، يمكن لمسؤولي مواقع الويب تخصيص أجزاء محددة يمكن لـ GPTBot زيارتها، وتتوفر عناوين IP متعددة للبوت لسهولة حظره.

تجدر الإشارة إلى أن نماذج اللغة الكبيرة المستخدمة في ChatGPT تم تدريبها حتى تاريخ سبتمبر 2021 على كميات ضخمة من البيانات المجمعة عبر الإنترنت.

من المهم أنه لا يوجد وسيلة لإزالة البيانات التي تم جمعها قبل هذا التاريخ بشكل رجعي. ومع ذلك ، يعتبر حظر زاحف الشبكة الجديد المعروف باسم GPTBot كأداة لحماية مواقع الويب المستقبلية التي ترغب في الابتعاد عن الأمر.

تعتقد العديد من أصحاب المواقع، الذين قد لا يكونون راغبين في تعميم محتواهم وتقليدهم بواسطة الذكاء الاصطناعي، أنهم يستفيدون بالفعل من إمكانية الحظر.

على سبيل المثال، أعلنت مجلة الخيال العلمي الشهيرة Clarkesworld على منصة التواصل الاجتماعي Twitter سابقًا أنها قامت بحظر GPTBot.

قام موقع أخبار التكنولوجيا The Verge بالإجراء نفسه، ويتم تداول عدد لا يحصى من المقالات التي تقدم نصائح حول كيفية منع الزاحف.

يعد زاحف الشبكة أحد الجوانب الحيوية للإنترنت الحديث وليس شيئًا جديدًا. في كثير من الحالات، تشجع مواقع الويب برامج الزحف من جوجل ومحركات البحث الأخرى على المرور للمساعدة في زيادة زيارات الويب.

ومع ذلك، يعتقد العديد من أصحاب مواقع الويب الآن أن استخدام بياناتهم في تدريب نماذج الذكاء الاصطناعي التوليدي أمر غير مقبول.

على سبيل المثال، تم ذكر في دعوى قضائية مرفوعة مؤخرًا ضد شركة OpenAI أن السماح لروبوت الدردشة ChatGPT بتدريب نفسه على ما كتبه الآخرون من كتب ومقالات متاحة على الإنترنت دون إذن يعتبر سرقة.

التعليقات

أحدث أقدم

نستخدم ملفات تعريف الارتباط لضمان حصولك على أفضل تجربة.