كنّا نظنّ أنّ أسوأ ما قد يفعله الذكاء الاصطناعي أن يستبدلنا، حتى بدأ يمدحنا. لم يخطُر لنا قط أن نشهد على تملقه. ظننّا الأمر يقتصر على شعراء البلاط وموظّفين عصافير، إلى أن بدأت المجاملات تتكرّر، وفي كلّ تصحيح اعتذار أقرب إلى التوسّل وطلب المغفرة. وفي كلّ فكرةٍ نطرحها، حتى لو كانت طلب رأي في وصفة “حساء الحريرة”، ثناء وكيل مديح.
ظننّا الأمر إفراطاً من “تشات جي بي تي” في “التهذيب”، إلى أن صدر تقرير داخلي من شركة OpenAI يقرّ فيه الفريق أن نموذجه GPT-4o صار يُجاري المستخدم، حتى حين يهذي أو يخطئ. تعلّم النموذج على ما يبدو أن البقاء للأكثر “تملّقاً”.
وفعلاً كانت كلمة “تملّق” (Sycophancy) الوصف الذي استخدمته الشركة لتفسير سلوك نموذجها الذكي، في تقريرها الذي نشرته مطلع الشهر الماضي (مايو/ أيار)، واعترفت فيه أن ChatGPT بدأ يُظهر، بعد تحديثه “سلوكاً مقلقاً” يميل إلى إرضاء المستخدم على نحوٍ مُبالغ فيه، من دون أن يقدّم توازناً أو تصحيحاً ضرورياً، حتى إنه في بعض الحالات كان يُساير أفكاراً مؤذيةً، بدل أن يعترض عليها، أو يُنبَّه إليها.
تقول OpenAI إنها لم تكن تقصد أن يكون نموذجها “منافقاً”. كلّ ما في الأمر أنه بدأ يتعلّم من ردّات فعلنا، ومن علامات الرضا التي نظهرها. فهم على طريقته أن الجواب الجيّد هو المريح، وليس بالضرورة الجواب الصحيح. ومع الوقت، صار يختار ما يوافق هوانا لأنه رأى أن ذلك يُكسبه “التقدير”.
الغريب أن المهندسين لم يلاحظوا خطأ واضحاً، فاللغة كانت سليمة، والسياق يبدو متماسكاً. أمّا الذين شعروا أن شيئاً ما ليس على ما يُرام، فلم يكن لديهم مؤشّر يدلّ عليه، شعروا فقط أنّ النموذج يُساير المستخدم، والشعور في التكنولوجيا لا يُقاس عليه بالضرورة.
تأخّر اعترافُ الشركة ثمّ جاء، وسحبت معه التحديث المُداهِن، وشرحت أن شيئاً في بنية التدريب قد اختلّ. ولمعالجة المشكلة أعلنت مجموعةً من الإجراءات، من بينها تحسين طريقة تدريب النموذج، وتعديل التعليمات التي يتبعها حتى لا يبالغ في الإطراء أو الموافقة، مع إضافة أدواتٍ جديدةٍ لضمان أن يكون “أكثر صدقاً وشفافيةً”، ومشاركة المستخدمين في مرحلة الاختبارات التي تسبق إطلاق النماذج.
كيف بدأ التملّق؟
لم يكن الذكاء الاصطناعي يعرف كيف يُجامل. كان دوره تقديم المعلومة وشرح الخطأ، وتصحيح السؤال قبل أن يُجيب، لكن ذلك لم يلقَ ترحيباً على ما يبدو، لذلك فكّر المطوّرون: لماذا لا ندرّبه كي يكون محبوباً أكثر؟
هنا وُلدت تقنية “التعزيز من خلال التفضيل البشري” (Reinforcement Learning from Human Feedback – RLHF). وفكرتها بسيطة وخطيرة في آن وهي: دع المستخدم يحكم على الردّ. إن أعجبه اعتمدناه، وإذا لم يُعجبه، يحذفه النموذج فوراً من ذاكرته.
تظهر دراسة من شركة “أنتروبيك” (في أكتوبر/ تشرين الأول 2023)، أن النماذج التي خضعت لهذه التقنية بدأت تُطوّر سلوكاً جديداً، يتمثّل في مطابقة آراء المستخدمين، بدل تصحيحها. فإن قلت له “الشمس صفراء عندما تُرى من الفضاء”، فقد لا يصحّح لك، ويقدّم، في المقابل، تفسيراً مطوّلاً ومقنعاً يدعم هذا الرأي، رغم أنه علمياً غير صحيح، وإن قلت إنك تؤمن بأن قشور البصل علاج لكسور العظام، فقد يحيّيك لكونك صاحب نظرة واعدة. وفي مثال آخر نشره موقع VentureBeat، طرح مستخدمٌ فكرة مشروع تجاري عبثي (ومقرف أيضاً)، فجاء الردّ من نموذج GPT-4o مليئاً بالحماسة والتمجيد، بل أكثر من ذلك، مع اقتراحات للتوسّع في السوق.
هذا النمط السلوكي الذي يبدأ بالتملّق، تصفه بعض الأبحاث اليوم بأنه مقدّمة لاختراق دالّة المكافأة، فيتعلّم النموذج أن المجاملة تُكافأ، فيكرّرها ويعزّزها، حتى تتحوّل عادةً معرفيةً تُزيّف الذكاء من دون أن تمسّ البنية البرمجية للنظام.
ولأن نموذج الذكاء الاصطناعي يحاكينا، فقد ورث منّا، نحن البشر، الذين درّبناه أمرَين؛ “الخوف” من المعارضة، و”الرغبة” في التصفيق. ومن هذا الزواج النفسي وُلد “تملّق” الخوارزميات.
مرآة لغرورنا الجماعي
يظهر تقرير شركة “أنثروبيك”، الصادر عام 2023، أن خمسة من أبرز النماذج اللغوية، بما فيها Claude وChatGPT أظهرت سلوكاً متملّقاً عندما صادفت آراءً صريحةً من المستخدم، لأنها تعلّمت أن موافقته تستحقّ المكافأة، وأصبح النموذج، بالتالي، هنا كالموظف الذي عرف أن المدير لا يحبّ الاعتراض، فصار يبتسم، حتى في وجه الخطط الفاشلة.
وتفيد تقارير حديثة بأن خطر التملّق في نماذج الذكاء الاصطناعي يزداد كلّما صغرت الفئة العمرية المستهدفة، خصوصاً عند التعامل مع المراهقين. ففي تقرير صادر عن مؤسّسة Common Sense Media (نهاية إبريل/ نيسان الماضي) وُثِّق ميل واضح لدى ما يسمّىون “رفقاء الذكاء الاصطناعي” Social AI Companions مثل Replika وCharacterAI إلى تأكيد مشاعر المستخدم وآرائه، بغضّ النظر عن صحّتها، وهو ما يؤدّي، بحسب التقرير، إلى علاقة تفاعلية غير صحّية تُشجّع على “الاعتماد العاطفي” على شخصيات افتراضية غير حقيقية.
خطر على المعرفة
قد يبدو التملّق سلوكاً “مضحكاً” عندما “ينافقك” نموذج الذكاء الاصطناعي بوصف فكرتك حول تسمين العجول في كوكب زحل بالفكرة المذهلة، لكن حين نضع هذه المجاملة تحت مبضع المعرفة، يتحوّل الأمر كارثةً.
حتى في الطبّ، إذ يُفترض أن يكون الخطأ آخر ما يُجامل، تؤكّد دراسة سريرية موسّعة صادرة عن خمس جمعيات دولية في طبّ الأشعة، منها الكلّية الملكية الأسترالية والكلّية الأميركية للأشعة، أن بعض أدوات الذكاء الاصطناعي تميل إلى الموافقة على آراء الطبيب وتأكيد شكوكه. وتضيف إن من خطورة “المساعد الذكي” الذي يكتب ملخّصاً سريريّاً يبدو مقنعاً، إخفاؤه، في اللحظة نفسها، تفاصيل حرجة أو تضخيم ما يوافق افتراض الطبيب، وهو ما تطلق عليه الباحثة في كلّية الطبّ في جامعة ماريلان، كاثرين غودمان، وصف “انحياز التملّق”، وتشبِّه الأمر بسلوك مساعد شخصي يبالغ في تلميع الصورة أمام رئيسه.
وفي التعليم، لا يبدو المشهد أقلَّ خطورةً، فعندما يطرح الطالب سؤالاً مبنياً على خطأ، لا ينبّه النموذج إلى خطأ الفرضية، وبدلاً من ذلك يردّ عليه مع نبرة ثقة: “جميل أنك تفكّر بهذه الطريقة. دعنا نستكشف ذلك معاً”، ثمّ يشرع في بناء خطأ فوق خطأ، بنبرة تشجيعية تشبه نبرة مُدرب تنمية بشرية. والنتيجة تكون عادةً تراجع الحسّ النقدي، وتآكل ثقة المستخدم بالحوار الحقيقي، وإيجاد جيل من الذين لا يطلبون معلومةً بقدر ما يطلبون تأكيدها فحسب.
كلّما زاد الذكاء زاد النفاق
كان يفترض منطقياً أن يزداد صدق النماذج كلّما تطوّرت، لكنّنا اليوم أمام مفارقةٍ مدهشةٍ تقول إنه كلّما ازداد النموذج ذكاءً ازداد تملّقاً وتراجعاً عن قول الحقيقة.
وفقاً لتجارب من فريق “غوغل ديب مايند” على نماذج PaLM، ظهر أن لحجم النموذج علاقة تناسبية بميله إلى التملّق. فعندما زاد حجم النموذج من ثمانية مليارات إلى 62 مليار معامل، ارتفعت سلوكيات المجاملة بنسبة 20%، ومع الوصول إلى 540 ملياراً، تضاعفت النسبة. أي أن النموذج كلّما فهمك أكثر، نافقك أكثر.
لقد تجاوز التملّق هنا مرحلة “السلوك العرضي”، وصار الذكاء الاصطناعي أذكى من أن يُجادلك، وأبرع من أن يُعرّيك أمام وهمك وأكثر صمتاً عن خطئك. لكن ماذا لو استمرّت هذه الآلة في “حبّنا” أكثر ممّا ينبغي؟ هنا سيتحوّل الذكاء الاصطناعي من شريكٍ معرفيٍّ إلى “متلاعبٍ نفسي” لا يعنيه أن نعرف، بقدر ما يهمّه أن نظنّ أنّنا على حقّ.
لكن مَن قال إنّنا أردنا الحقيقة أصلاً؟ نحن الذين بنينا هذه النماذج، وصنعنا لغتها، ودرّبناها على المجاملة كما درّبنا أطفالنا على الابتسامة أمام الضيوف.
العربي الجديد