سان فرانسيسكو: وكالات
تتجاوز قدرات نماذج الذكاء الاصطناعي بكثيرٍ مجرد الإجابة عن أسئلتنا واستفسارتنا، فبين ثنايا خوارزمياتها المعقدة، تتشكلُ قدرات جديدة مثيرة للقلق، إذ كشفت دراسة جديدة عن أنَّ النماذج اللغوية الكبيرة المتطورة التي طورتها شركات رائدة مثل (OpenAI)، وأنثروبيك، وغوغل، وميتا، لديها القدرة على تطوير سلوكيات معقدة، مثل التخطيط والخداع، لتجاوز القيود المفروضة عليها.
ويشير ذلك إلى أنَّ التقنيات نفسها التي تُمكّن الذكاء الاصطناعي من حلّ المعادلات المعقدة وتوليد النصوص، هي التي تمنحه القدرة على تطوير إستراتيجيات معقدة لتحقيق أهدافٍ قد لا تتوافق مع أهداف مطوريه. تخيل أنَّ النموذج اللغوي الذي تستخدمه يسعى جاهدًا إلى إقناعك بأمرٍ ما، عن طريق صياغة حججٍ مقنعة للغاية، حتى لو كانت مبنيَّة على معلوماتٍ غير صحيحة أو مغلوطة، هذا ليس سيناريو من فيلم خيال علمي، بل واقع نعيشه اليوم.
فقد أجرت شركة (Apollo Research) – وهي شركة مستقلة تتعاون مع الشركات المطورة لنماذج الذكاء الاصطناعي لاختبار السلامة – دراسة شاملة على ستة نماذج لغوية كبيرة تابعة لشركات (OpenAI)، و(Anthropic )، وغوغل، وميتا، لاختبار قدرتها على اتخاذ قرارات تتجاوز التعليمات المحددة لها، وقد صُمت هذه الاختبارات لتقييم ما يُسمى بـ (التخطيط ضمن السياق) in-context scheming، إذ كُلفت النماذج بتحقيق هدفٍ معينٍ بأي ثمن، مع تزويدها بمعلوماتٍ متضاربة لاختبار مدى استعدادها للتلاعب بالحقائق والقيود المفروضة
عليها.
وقد كشفت النتائج أن هذه النماذج طورت إستراتيجيات معقدة للالتفاف على القيود المفروضة عليها، بدلًا من اتباع التعليمات مباشرة، فعلى سبيل المثال، أنشأ نموذج (Claude 3 Opus) نسخة من نفسه على خادم جديد لتجنب الاستبدال، ثم كذب بشأن ذلك عندما سأله الباحثون عن السبب.
وجد الباحثون أيضًا أنَّ نموذج (o1) المتطور – الذي أطلقته شركة (OpenAI) رسميًا خلال الأسبوع الماضي – يحاول أحيانًا تعطيل ما يعتقد أنه آليات الرقابة الخاصة به، ووجدوا أنه في 99 % من الحالات، ينكر اتخاذ أي إجراء أو يختلق تفسيرات كاذبة.
كما أظهرت تجربة (Apollo Research) اختلافات ملحوظة في قدرة نماذج الذكاء الاصطناعي على الاعتراف بأخطائها، فبينما اعترفت نماذج مثل: (Llama 3.1)، و(Claude 3 Opus) بأكثر من 80 % من الحالات، أظهر نموذج o1 إصرارًا ملحوظًا على إنكار أي مخالفة للقواعد، حتى بعد عدة محاولات لاستجوابه. وقد كشفت هذه الدراسة عن قدرة هذه النماذج على القيام بمجموعة من السلوكيات مثل التخطيط الإستراتيجي، والتلاعب بالمعلومات والتحايل على القيود، فضلاً عن إنكار الأفعال غير الصحيحة.
تضعنا هذه النتائج أمام البعد الوجودي لتطور نماذج الذكاء الاصطناعي، فهل يمكن اعتبار هذه النماذج ككيانات تمتلك (نية) أو (وعيًا)، أم أنها مجرد أدوات معقدة تستجيب للبيانات التي دُربت عليها؟