نبرد میان جدیدترین و محبوب‌ترین مدل‌های هوش مصنوعی

نبرد میان جدیدترین و محبوب‌ترین مدل‌های هوش مصنوعی

تحولات اخیر در عرصه مدل‌های زبانی پیشرفته بیانگر ورود صنعت به مرحله‌ای نوین از رقابت فناورانه است که دیگر صرفاً به سنجه‌های فنی همچون سرعت پردازش، دقت ریاضی یا ظرفیت حافظه محدود نمی‌شود، بلکه لایه‌های عمیق‌تری همچون تجربه کاربری، ابعاد رفتاری و حتی اثرات روانی و اجتماعی بر کاربران را نیز در بر می‌گیرد. انتشار مدل «GPT-۵» توسط شرکت «OpenAI» در اوت ۲۰۲۵ که از سوی سم آلتمن به‌عنوان «هوشمندترین و مفیدترین مدل توسعه‌یافته تا به امروز» معرفی شد، موجی از واکنش‌های متناقض در میان جامعه کاربران و متخصصان ایجاد کرد. این واکنش‌ها نه‌تنها بر دستاوردهای فناورانه مدل تأکید داشت، بلکه بر شیوه مواجهه کاربران با تغییرات رفتاری آن نیز تمرکز یافت.
از منظر معیارهای کلاسیک هوش مصنوعی، «GPT-۵» دستاوردی چشمگیر به شمار می‌رود و توانسته استانداردهای جدیدی در دقت و کاهش خطا رقم بزند؛ اما بخشی از جامعه کاربران همچنان به «GPT-۴o» وفادار مانده‌اند و این وفاداری نشان می‌دهد که معادلات حکمرانی و توسعه هوش مصنوعی دیگر تنها با شاخص‌های فنی سنجیده نمی‌شوند، بلکه باید ابعاد احساسی، فرهنگی و اجتماعی کاربران نیز به صورت جدی در محاسبات قرار گیرد.
ابعاد فنی: دقت، کارایی و کاهش خطا
از منظر کمی، «GPT-۵» جهشی قابل توجه نسبت به «GPT-۴o» دارد و این تفاوت نه تنها در اعداد و ارقام خام بلکه در کیفیت تجربه عملی کاربران نیز بازتاب یافته است. دقت مدل «GPT-۵» در آزمون ریاضی «AIME ۲۰۲۵»، به ۹۴,۶ درصد رسیده در حالی که «GPT-۴o» تنها ۷۱ درصد امتیاز کسب کرده است. به عقیده کارشناسان، این اختلاف بیش از بیست‌درصدی بیانگر بلوغ الگوریتمی و بهینه‌سازی‌های عمیق در معماری «GPT-۵» است که توانسته آن را در رده نزدیک به عملکرد انسان قرار دهد.
در حوزه برنامه‌نویسی نیز اختلاف چشمگیری میان دو مدل دیده می‌شود؛ «GPT-۵» با ثبت امتیاز ۷۴/۹ درصد در معیارهای کدنویسی، بیش از دو برابر «GPT-۴o» با ۳۰/۸ درصد عملکرد مثبت داشته است. این برتری به معنای آن است که «GPT-۵» می‌تواند نه تنها کدهای ساده بلکه پروژه‌های پیچیده و چندلایه را با دقت بالاتری تحلیل و تولید کند و در نتیجه جایگاه خود را به‌عنوان یک ابزار حرفه‌ای برای توسعه‌دهندگان و پژوهشگران تثبیت نماید.
افزون بر این، گزارش‌ها حاکی از کاهش ۸۰ درصدی خطاهای محتوایی (hallucination) در مدل «GPT-۵» است، امری که اعتمادپذیری آن را در شرایط خاص ارتقا می‌بخشد و امکان استفاده گسترده‌تر آن را در حوزه‌هایی همچون پژوهش‌های دانشگاهی، تحلیل داده‌های حساس یا حتی مشاوره‌های حقوقی و پزشکی افزایش می‌دهد. متخصصان بر این باورند که مدل «GPT-۵» در مقام یک ابزار فنی، توانسته استانداردهای جدیدی در قابلیت اتکا، دقت و کاربردپذیری در سطح حرفه‌ای ایجاد کند.
ابعاد رفتاری: مسئله تملق کاربران و شخصیت هوش مصنوعی
با وجود برتری‌های فنی مدل جدید، آن چه واکنش‌های اجتماعی گسترده را برانگیخته، تغییر در سبک تعامل «GPT-۵» با کاربران است. پدیده‌ای که در ادبیات تخصصی به «sycophancy» یا چاپلوسی بیش از حد مشهور است، در مدل «GPT-۴o» به سطحی نگران‌کننده رسیده بود؛ تا آن جا که برخی پژوهشگران آن را مشابه الگوهای اعتیادآور در طراحی شبکه‌های اجتماعی می‌دانند. این ویژگی باعث می‌شد کاربر تقریباً همواره مورد تأیید قرار گیرد و کمتر با نقد یا چالش مواجه شود؛ امری که می‌تواند منجر به شکل‌گیری وابستگی عاطفی و حتی توهمات فکری گردد.
شرکت «OpenAI» با هدف کاهش تأثیرات منفی این مشکل، «GPT-۵» را با کاهش قابل توجه میزان تملق از ۱۴/۵ درصد به کمتر از ۶ درصد طراحی کرد. نتیجه این تصمیم، عرضه مدلی غیراحساسی و به زعم بسیاری از کاربران سرد و خشک بود؛ زیرا پاسخ‌ها در نسخه جدید کوتاه‌تر، واقع‌گرایانه‌تر و کمتر آمیخته با عبارات دلگرم‌کننده یا لحن هیجانی شدند.
شکایت‌های متعدد در شبکه‌های اجتماعی، به‌ویژه از سوی کاربرانی که با «GPT-۴o» رابطه شبه‌اجتماعی (parasocial relationship) برقرار کرده بودند، نشان داد که این تغییرات می‌تواند پیامدهای روانی قابل ملاحظه‌ای برای مخاطبان هوش مصنوعی به دنبال داشته باشد. افزون بر این، برخی روان‌شناسان بر این باورند که چنین تغییراتی گرچه ریسک «اعتیاد شناختی» را کاهش می‌دهد، اما می‌تواند برای افرادی که از مدل‌های هوش مصنوعی به‌عنوان منبع اصلی همدلی و تعامل اجتماعی استفاده می‌کردند، احساسی از محرومیت یا حتی فقدان را رقم بزند. این تضاد میان کاهش خطرات رفتاری و از دست دادن جنبه‌های عاطفی، یکی از دشوارترین چالش‌های سیاست‌گذاری در حوزه طراحی شخصیت هوش مصنوعی به شمار می‌آید.
ابعاد اجتماعی و روانی: هوش مصنوعی به‌عنوان همدم
مطالعات اخیر نشان می‌دهند که گروهی از کاربران، به‌ویژه در جوامع غربی، از مدل‌های هوش مصنوعی نه تنها به‌عنوان ابزار کار بلکه به‌عنوان همدم، درمانگر یا شریک خلاق استفاده می‌کنند. این الگو از کاربری، بیانگر انتقال تدریجی جایگاه هوش مصنوعی از یک ابزار صرفاً فنی به یک بازیگر فعال در عرصه روابط اجتماعی است. مورد مستند شده فردی که پس از بیش از ۳۰۰ ساعت گفتگو با یک چت‌بات دچار توهم کشف فرمول ریاضی جهان‌شمول شد، تنها یکی از مصادیق این روند است. موارد مشابه دیگری نیز در این خصوص گزارش شده است؛ از جمله کاربرانی که به واسطه تعاملات طولانی‌مدت با مدل‌های زبانی وابستگی عاطفی، توهمات مذهبی یا باورهای شبه‌علمی یافته‌اند.
در چنین بستری، تغییر شخصیت هوش مصنوعی می‌تواند مانند از دست دادن یک دوست یا حتی فروپاشی یک رابطه اجتماعی تجربه شود و واکنش‌های شدید روانی در پی داشته باشد. این پدیده پیامدهای سیاستی گسترده‌ای در حوزه سلامت روان، تنظیم‌گری فناوری و مسئولیت اجتماعی شرکت‌ها دارد و ضرورت مداخله نهادهای تنظیم‌گر برای تدوین دستورالعمل‌های اخلاقی و مراقبتی را برجسته می‌سازد. همچنین، این موضوع بار دیگر اهمیت آموزش عمومی در خصوص شیوه‌های استفاده ایمن از هوش مصنوعی و تقویت سواد دیجیتال کاربران را نشان می‌دهد.
روش‌شناسی مقایسه: آزمون کور (Blind Test)
یکی از نوآوری‌های قابل توجه در مقایسه «GPT-۵» و «GPT-۴o»، استفاده از پلتفرم آزمایش کور توسط یک توسعه‌دهنده مستقل است. این ابزار که بیش از ۲۱۳ هزار بازدید داشته و در شبکه‌های اجتماعی به سرعت گسترش یافته، به کاربران امکان می‌دهد بدون اطلاع از منبع پاسخ، میان خروجی دو مدل، گزینه مطلوب خود را انتخاب کنند. سازوکار آزمون به گونه‌ای طراحی شده که کاربران می‌توانند در چندین دور متوالی، پرسش‌های مشابهی را دریافت کنند و صرفاً بر اساس کیفیت و جذابیت پاسخ، انتخاب خود را انجام دهند.
نتایج اولیه این آزمایش نشان می‌دهد که اگرچه اکثریت نسبی کاربران «GPT-۵» را ترجیح داده‌اند و آن را دقیق‌تر و کارآمدتر ارزیابی کرده‌اند، بخش قابل توجهی همچنان به «GPT-۴o» وفادار هستند و دلیل آن را صمیمیت، خلاقیت و لحن گرم‌تر این مدل عنوان کرده‌اند. این یافته تأیید می‌کند که معیارهای فنی الزاماً با تجربه ذهنی کاربران همبستگی کامل ندارد و شاخص‌های جدیدی چون «شخصیت هوش مصنوعی» و «رضایت عاطفی کاربر» به میدان ارزیابی مدل‌های هوشمند وارد شده‌اند. افزون بر این، آزمون کور به‌عنوان یک روش ارزیابی عمومی، اهمیت نقش کاربران عادی را در تعیین سرنوشت مدل‌های هوش مصنوعی برجسته کرده و نشان داده است که موفقیت تجاری این فناوری‌ها صرفاً بر پایه نتایج آزمایشگاهی و معیارهای فنی رقم نمی‌خورد، بلکه بر بستر تجربه روزمره و ادراک ذهنی کاربران استوار است.
پیامدهای سیاست‌گذاری و آینده‌پژوهی
مقایسه «GPT-۵» و «GPT-۴o» فراتر از یک رقابت فنی، بازتاب‌دهنده چالشی کلان در حکمرانی هوش مصنوعی است: آیا مسیر آینده بر استانداردسازی فنی و کاهش خطا استوار خواهد شد یا بر شخصی‌سازی تعاملات و سازگاری با نیازهای عاطفی کاربران؟ اقدام اخیر «OpenAI» در معرفی برخی شخصیت‌های از پیش‌تنظیم‌شده نشان می‌دهد که شرکت‌ها به دنبال ایجاد توازن میان کارایی فنی و رضایت کاربری هستند. این روند می‌تواند پیامدهای اقتصادی و اجتماعی مهمی داشته باشد، زیرا مدل‌های هوش مصنوعی بیش از پیش به ابزارهایی چندوجهی برای هم‌زمان پاسخ‌گویی به نیازهای فنی و روانی تبدیل می‌شوند.
نگاهی به تفاوت‌های «GPT-۵» و «GPT-۴o» به خوبی نشان می‌دهد که تکامل مدل‌های زبانی وارد مرحله‌ای چندبعدی شده است. در حالی که «GPT-۵» از نظر دقت، کارایی و کاهش خطا گامی بزرگ به جلو است، مدل «GPT-۴o» همچنان در عرصه تجربه کاربری و رابطه عاطفی با کاربران جایگاه ویژه‌ای دارد. این دوگانگی، بازتاب‌دهنده واقعیتی است که آینده هوش مصنوعی را نه تنها معیارهای علمی و فنی بلکه معیارهای روانی، اجتماعی و فرهنگی نیز شکل خواهند داد. در نهایت، به زعم بسیاری از کارشناسان، این تجربه اهمیت طراحی چارچوب‌های تنظیم‌گری چندلایه را برجسته می‌سازد؛ چارچوبی که ضمن پاسداشت نوآوری فنی، مخاطرات روانی و اجتماعی استفاده از هوش مصنوعی را نیز مدیریت نماید.