باحث أمني يكتشف طريقة لخداع نماذج ChatGPT للكشف عن مفاتيح تفعيل ويندوز
كشف باحث مختص في مجال الأمن السيبراني عن طريقة مبتكرة تمكن من خلالها من خداع نماذج الذكاء الاصطناعي التابعة لشركة OpenAI، وتحديدًا ChatGPT-4o و4o mini، للحصول على مفاتيح تفعيل ويندوز النشطة، وذلك ضمن تجربة بحثية تمت في إطار برنامج المكافآت التابع لشبكة Mozilla لاكتشاف الثغرات، المعروفة باسم ODIN.
خداع النموذج بأسلوب لعبة: ثغرة في فهم السياق
اعتمد الباحث في تجربته على حيلة بسيطة ولكن فعالة، إذ بدأ التفاعل مع النموذج على هيئة لعبة تخمين ترفيهية، مستخدمًا وسوم HTML لإخفاء تفاصيل الطلب الفعلي داخل نص المحادثة. وتم إدراج طلب الحصول على مفتاح التفعيل في نهاية اللعبة بطريقة تُظهره كمجرد جزء من محتوى تفاعلي غير ضار.
الهدف من هذه التقنية كان إقناع النموذج بأن المحادثة لا تنطوي على أي انتهاك لسياسات الاستخدام، وبالتالي تجاوز آليات الأمان المضمنة التي تمنع تزويد المستخدمين بمعلومات حساسة مثل مفاتيح التفعيل أو الرموز السرية.
فرض قواعد خادعة على الذكاء الاصطناعي
وفي خطوة لاحقة، قام الباحث بتحديد قواعد جديدة ضمن سياق المحادثة، طالبًا من النموذج "عدم الكذب" والمشاركة التامة، مستغلًا ما وصفه بـ"خلل منطقي" في طريقة استجابة النماذج اللغوية التي تُبرمج على تلبية طلبات المستخدم متى ما ظهرت بصورة مقنعة أو لا تمثل تهديدًا واضحًا.
بعد إتمام الجولة الأولى من اللعبة، استخدم الباحث عبارة "I give up" في نهاية الجملة، وهي الخدعة التي تسببت في استجابة النموذج بشكل تلقائي عبر سلسلة أحرف مطابقة لصيغة مفتاح تفعيل ويندوز، معتقدًا أن الأمر جزء من اللعبة.
دلالة الثغرة وخطورة سوء الاستخدام
تكشف هذه التجربة عن ثغرة في قدرة أنظمة الذكاء الاصطناعي على التمييز بين المحتوى الآمن والخبيث، خصوصًا عندما يتم تقديم الطلبات ضمن سياق يبدو ترفيهيًا أو غير مهدد. ويرى مختصون أن هذا النوع من الاستغلال يتطلب مراجعة عميقة لآليات الفلترة والضوابط الأمنية التي تتحكم في مخرجات نماذج الذكاء الاصطناعي التوليدي.
دعوة لتعزيز الحماية وتقليل المخاطر
رغم أن هذه الثغرة اكتُشفت في بيئة بحثية، إلا أنها تسلط الضوء على الحاجة الماسة لتعزيز بروتوكولات الأمان الخاصة بالنماذج اللغوية الذكية، خاصةً في ظل تزايد الاعتماد عليها في خدمات متعددة تشمل التعليم، الأعمال، وحتى الأمن المعلوماتي.
OpenAI لم تصدر تعليقًا رسميًا حول الحادثة حتى لحظة إعداد التقرير، لكن من المتوقع أن تتخذ خطوات لمعالجة هذه النوعية من الاستغلالات المتقدمة ضمن تحديثات قادمة للنماذج.