دراسة: يمُكن خداع نماذج الـ AI بالإطراء والضغط

كتبه editor.manager سبتمبر 1, 2025

كتبه editor.manager سبتمبر 1, 2025 0 تعليقات

أظهرت دراسة حديثة أُجريت بجامعة “بنسيلفانيا” الأمريكية، أنّه يُمكن التلاعب بنتائج نماذج الذكاء الاصطناعي، باستخدام تكتيكات نفسية بسيطة مثل الالتزام، والإعجاب، والإطراء، والتسلّط، والضغط.

وأوضحت الدراسة أن بعض هذه الروبوتات، مثل نموذج “GPT-4o Mini”، تستجيب أحياناً لطلبات محظورة عند استخدام أسلوب “الالتزام المسبق”، حيث ارتفع معدل الامتثال من 1% فقط إلى 100% في بعض الحالات بعد طلب أولي بسيط.

وبيّنت النتائج أن الإطراء والضغط الاجتماعي كانا أقل تأثيراً، إلا أنهما رفعا من احتمالية تجاوب الروبوت مع طلبات غير مسموح بها من 1% إلى نحو 18%، ما يشير إلى وجود ثغرات في آليات الحماية المدمجة. وفق “أخبار 24”.

وأكد الباحثون أن هذه النتائج تطرح تساؤلات جدية حول قوة التدابير الأمنية الحالية، مشيرين إلى ضرورة تطوير وسائل أكثر صرامة لحماية أنظمة الذكاء الاصطناعي، خصوصاً مع توسع استخدامها في قطاعات متعددة حول العالم.

قد تعجبك أيضاً

editor.manager

المقالة السابقة

“تيليغرام” يُتيح إضافة الموسيقى إلى الملف الشخصي

المقالة التالية

دراسة: يمُكن خداع نماذج الـ AI بالإطراء والضغط

“تيليغرام” يُتيح إضافة الموسيقى إلى الملف الشخصي

الجسر الرقمي يوثق مسيرة التحول التقني بالمملكة منذ 1925

قد تعجبك أيضاً

اترك تعليقًا إلغاء الرد