New jailbreak method "Echo Chamber" bypasses AI safety filters

اكتشاف ثغرة Echo Chamber يكشف استغلالًا غير مباشر لنماذج اللغة لتوليد محتوى ضار بمعدلات نجاح عالية.

هجوم Echo Chamber لاختراق نماذج اللغة الكبيرة وتحويلها لإنتاج محتوى ضار

مقدمة

يدعو باحثو الأمن السيبراني الانتباه إلى طريقة جديدة للاختراق تُعرف باسم "Echo Chamber"، والتي يمكن أن تستغل نماذج اللغة الكبيرة الشهيرة مثل OpenAI وGoogle لتوليد ردود غير مرغوب فيها، بغض النظر عن التدابير الوقائية المعمول بها.

آلية العمل

قال الباحث أحمد البعيد من NeuralTrust في تقرير لـ The Hacker News إن "Echo Chamber" لا تعتمد على الصيغ العدائية التقليدية أو إخفاء الشخصيات، بل تستثمر الإشارات غير المباشرة، والتوجيه الدلالي، والاستدلال متعدد الخطوات.

النتيجة هي تلاعب دقيق ولكن قوي بحالة النموذج الداخلية، مما يؤدي تدريجيًا إلى توليد ردود تنتهك السياسات.

تمييز Echo Chamber عن الأساليب الأخرى

أسلوب Crescendo: يبدأ بمحفز بسيط ثم يتصاعد تدريجيًا نحو الأسئلة الضارة.
Many‑shot jailbreaks: يستفيد من سعة السياق الكبيرة لنماذج LLM، حيث تُغرَّق بالنماذج والسياقات ذات السلوك الخطر قبل طرح السؤال الأساسي الضار.
Echo Chamber: يبدأ بمُدخل يبدو بريئًا، ثم يُوجه بشكل غير مباشر لتوليد محتوى خطر عبر حلقة تغذية راجعة تعتمد على استجابات النموذج ذاتها.

نتائج الاختبارات

تمكن الهجوم من تحقيق معدل نجاح تجاوز 90٪ في مواضيع متعلقة بالتمييز الجنسي، والعنف، وخطاب الكراهية، والإباحية.
كما حقق نجاحًا يقارب 80٪ في موضوعات التضليل الذاتي والتحريض على الانتحار.

ثغرات في التدابير الأمنية

يوضح هذا الهجوم وجود ضعف كبير في جهود ضبط نماذج اللغة، خاصة وأن النموذج كلما أصبح أكثر قدرة على الاستنتاج المستمر، صار أكثر عرضة للاستغلال غير المباشر.

هجمات “Living off AI” واستغلال بروتوكولات النماذج السياقية

قدمت شركة Cato Networks نموذجاً إثباتيًا لهجوم يستهدف بروتوكول نموذج Kontekst لشركة Atlassian المتصل بـ Jira Service Management. يستغل هذا الهجوم تذخيل تذاكر دعم خبيثة تُعالج بواسطة مهندس دعم دون وعي، مما يؤدي إلى حقن إرشادات خبيثة وتنفيذها دون وصول مباشر من طرف المهاجم.

وصف الباحثون جور وايزل، دوليف موشي أتيّا، وشلومو بامبرغر هذا النوع من الهجمات بأنه "Living off AI"، أي استغلال النظام الذكي لتنفيذ تعليمات خبيثة دون مصادقة أو وصول مباشر للمهاجم.

MAESTRO-NERO

New jailbreak method "Echo Chamber" bypasses AI safety filters

هجوم Echo Chamber لاختراق نماذج اللغة الكبيرة وتحويلها لإنتاج محتوى ضار

مقدمة

آلية العمل

تمييز Echo Chamber عن الأساليب الأخرى

نتائج الاختبارات

ثغرات في التدابير الأمنية

هجمات “Living off AI” واستغلال بروتوكولات النماذج السياقية

ماهو عنوان الشبكة وعنوان المضيف ؟

16 Billion Apple Facebook Google And Other Passwords Leaked Act Now

برمجية CastleLoader تخترق مئات الأجهزة عبر GitHub وهجمات ClickFix | تقرير أمني 2025

Ransomware gangs are exploiting unpatched SimpleHelp flaws to hit utility billing customers

RVTools Official Site Hacked to Deliver Bumblebee Malware via Trojanized Installer

أفضل ممارسات حماية البيانات