New jailbreak method "Echo Chamber" bypasses AI safety filters
هجوم Echo Chamber لاختراق نماذج اللغة الكبيرة وتحويلها لإنتاج محتوى ضار
مقدمة
يدعو باحثو الأمن السيبراني الانتباه إلى طريقة جديدة للاختراق تُعرف باسم "Echo Chamber"، والتي يمكن أن تستغل نماذج اللغة الكبيرة الشهيرة مثل OpenAI وGoogle لتوليد ردود غير مرغوب فيها، بغض النظر عن التدابير الوقائية المعمول بها.
آلية العمل
قال الباحث أحمد البعيد من NeuralTrust في تقرير لـ The Hacker News إن "Echo Chamber" لا تعتمد على الصيغ العدائية التقليدية أو إخفاء الشخصيات، بل تستثمر الإشارات غير المباشرة، والتوجيه الدلالي، والاستدلال متعدد الخطوات.
النتيجة هي تلاعب دقيق ولكن قوي بحالة النموذج الداخلية، مما يؤدي تدريجيًا إلى توليد ردود تنتهك السياسات.
تمييز Echo Chamber عن الأساليب الأخرى
- أسلوب Crescendo: يبدأ بمحفز بسيط ثم يتصاعد تدريجيًا نحو الأسئلة الضارة.
- Many‑shot jailbreaks: يستفيد من سعة السياق الكبيرة لنماذج LLM، حيث تُغرَّق بالنماذج والسياقات ذات السلوك الخطر قبل طرح السؤال الأساسي الضار.
- Echo Chamber: يبدأ بمُدخل يبدو بريئًا، ثم يُوجه بشكل غير مباشر لتوليد محتوى خطر عبر حلقة تغذية راجعة تعتمد على استجابات النموذج ذاتها.
نتائج الاختبارات
- تمكن الهجوم من تحقيق معدل نجاح تجاوز 90٪ في مواضيع متعلقة بالتمييز الجنسي، والعنف، وخطاب الكراهية، والإباحية.
- كما حقق نجاحًا يقارب 80٪ في موضوعات التضليل الذاتي والتحريض على الانتحار.
ثغرات في التدابير الأمنية
يوضح هذا الهجوم وجود ضعف كبير في جهود ضبط نماذج اللغة، خاصة وأن النموذج كلما أصبح أكثر قدرة على الاستنتاج المستمر، صار أكثر عرضة للاستغلال غير المباشر.
هجمات “Living off AI” واستغلال بروتوكولات النماذج السياقية
قدمت شركة Cato Networks نموذجاً إثباتيًا لهجوم يستهدف بروتوكول نموذج Kontekst لشركة Atlassian المتصل بـ Jira Service Management. يستغل هذا الهجوم تذخيل تذاكر دعم خبيثة تُعالج بواسطة مهندس دعم دون وعي، مما يؤدي إلى حقن إرشادات خبيثة وتنفيذها دون وصول مباشر من طرف المهاجم.
وصف الباحثون جور وايزل، دوليف موشي أتيّا، وشلومو بامبرغر هذا النوع من الهجمات بأنه "Living off AI"، أي استغلال النظام الذكي لتنفيذ تعليمات خبيثة دون مصادقة أو وصول مباشر للمهاجم.