أظهرت دراسة حديثة أُجريت بجامعة “بنسيلفانيا” الأمريكية، أنّه يُمكن التلاعب بنتائج نماذج الذكاء الاصطناعي، باستخدام تكتيكات نفسية بسيطة مثل الالتزام، والإعجاب، والإطراء، والتسلّط، والضغط.
وأوضحت الدراسة أن بعض هذه الروبوتات، مثل نموذج “GPT-4o Mini”، تستجيب أحياناً لطلبات محظورة عند استخدام أسلوب “الالتزام المسبق”، حيث ارتفع معدل الامتثال من 1% فقط إلى 100% في بعض الحالات بعد طلب أولي بسيط.
وبيّنت النتائج أن الإطراء والضغط الاجتماعي كانا أقل تأثيراً، إلا أنهما رفعا من احتمالية تجاوب الروبوت مع طلبات غير مسموح بها من 1% إلى نحو 18%، ما يشير إلى وجود ثغرات في آليات الحماية المدمجة. وفق “أخبار 24”.
وأكد الباحثون أن هذه النتائج تطرح تساؤلات جدية حول قوة التدابير الأمنية الحالية، مشيرين إلى ضرورة تطوير وسائل أكثر صرامة لحماية أنظمة الذكاء الاصطناعي، خصوصاً مع توسع استخدامها في قطاعات متعددة حول العالم.