نبرد میان جدیدترین و محبوبترین مدلهای هوش مصنوعی
تحولات اخیر در عرصه مدلهای زبانی پیشرفته بیانگر ورود صنعت به مرحلهای نوین از رقابت فناورانه است که دیگر صرفاً به سنجههای فنی همچون سرعت پردازش، دقت ریاضی یا ظرفیت حافظه محدود نمیشود، بلکه لایههای عمیقتری همچون تجربه کاربری، ابعاد رفتاری و حتی اثرات روانی و اجتماعی بر کاربران را نیز در بر میگیرد. انتشار مدل «GPT-۵» توسط شرکت «OpenAI» در اوت ۲۰۲۵ که از سوی سم آلتمن بهعنوان «هوشمندترین و مفیدترین مدل توسعهیافته تا به امروز» معرفی شد، موجی از واکنشهای متناقض در میان جامعه کاربران و متخصصان ایجاد کرد. این واکنشها نهتنها بر دستاوردهای فناورانه مدل تأکید داشت، بلکه بر شیوه مواجهه کاربران با تغییرات رفتاری آن نیز تمرکز یافت.
از منظر معیارهای کلاسیک هوش مصنوعی، «GPT-۵» دستاوردی چشمگیر به شمار میرود و توانسته استانداردهای جدیدی در دقت و کاهش خطا رقم بزند؛ اما بخشی از جامعه کاربران همچنان به «GPT-۴o» وفادار ماندهاند و این وفاداری نشان میدهد که معادلات حکمرانی و توسعه هوش مصنوعی دیگر تنها با شاخصهای فنی سنجیده نمیشوند، بلکه باید ابعاد احساسی، فرهنگی و اجتماعی کاربران نیز به صورت جدی در محاسبات قرار گیرد.
ابعاد فنی: دقت، کارایی و کاهش خطا
از منظر کمی، «GPT-۵» جهشی قابل توجه نسبت به «GPT-۴o» دارد و این تفاوت نه تنها در اعداد و ارقام خام بلکه در کیفیت تجربه عملی کاربران نیز بازتاب یافته است. دقت مدل «GPT-۵» در آزمون ریاضی «AIME ۲۰۲۵»، به ۹۴,۶ درصد رسیده در حالی که «GPT-۴o» تنها ۷۱ درصد امتیاز کسب کرده است. به عقیده کارشناسان، این اختلاف بیش از بیستدرصدی بیانگر بلوغ الگوریتمی و بهینهسازیهای عمیق در معماری «GPT-۵» است که توانسته آن را در رده نزدیک به عملکرد انسان قرار دهد.
در حوزه برنامهنویسی نیز اختلاف چشمگیری میان دو مدل دیده میشود؛ «GPT-۵» با ثبت امتیاز ۷۴/۹ درصد در معیارهای کدنویسی، بیش از دو برابر «GPT-۴o» با ۳۰/۸ درصد عملکرد مثبت داشته است. این برتری به معنای آن است که «GPT-۵» میتواند نه تنها کدهای ساده بلکه پروژههای پیچیده و چندلایه را با دقت بالاتری تحلیل و تولید کند و در نتیجه جایگاه خود را بهعنوان یک ابزار حرفهای برای توسعهدهندگان و پژوهشگران تثبیت نماید.
افزون بر این، گزارشها حاکی از کاهش ۸۰ درصدی خطاهای محتوایی (hallucination) در مدل «GPT-۵» است، امری که اعتمادپذیری آن را در شرایط خاص ارتقا میبخشد و امکان استفاده گستردهتر آن را در حوزههایی همچون پژوهشهای دانشگاهی، تحلیل دادههای حساس یا حتی مشاورههای حقوقی و پزشکی افزایش میدهد. متخصصان بر این باورند که مدل «GPT-۵» در مقام یک ابزار فنی، توانسته استانداردهای جدیدی در قابلیت اتکا، دقت و کاربردپذیری در سطح حرفهای ایجاد کند.
ابعاد رفتاری: مسئله تملق کاربران و شخصیت هوش مصنوعی
با وجود برتریهای فنی مدل جدید، آن چه واکنشهای اجتماعی گسترده را برانگیخته، تغییر در سبک تعامل «GPT-۵» با کاربران است. پدیدهای که در ادبیات تخصصی به «sycophancy» یا چاپلوسی بیش از حد مشهور است، در مدل «GPT-۴o» به سطحی نگرانکننده رسیده بود؛ تا آن جا که برخی پژوهشگران آن را مشابه الگوهای اعتیادآور در طراحی شبکههای اجتماعی میدانند. این ویژگی باعث میشد کاربر تقریباً همواره مورد تأیید قرار گیرد و کمتر با نقد یا چالش مواجه شود؛ امری که میتواند منجر به شکلگیری وابستگی عاطفی و حتی توهمات فکری گردد.
شرکت «OpenAI» با هدف کاهش تأثیرات منفی این مشکل، «GPT-۵» را با کاهش قابل توجه میزان تملق از ۱۴/۵ درصد به کمتر از ۶ درصد طراحی کرد. نتیجه این تصمیم، عرضه مدلی غیراحساسی و به زعم بسیاری از کاربران سرد و خشک بود؛ زیرا پاسخها در نسخه جدید کوتاهتر، واقعگرایانهتر و کمتر آمیخته با عبارات دلگرمکننده یا لحن هیجانی شدند.
شکایتهای متعدد در شبکههای اجتماعی، بهویژه از سوی کاربرانی که با «GPT-۴o» رابطه شبهاجتماعی (parasocial relationship) برقرار کرده بودند، نشان داد که این تغییرات میتواند پیامدهای روانی قابل ملاحظهای برای مخاطبان هوش مصنوعی به دنبال داشته باشد. افزون بر این، برخی روانشناسان بر این باورند که چنین تغییراتی گرچه ریسک «اعتیاد شناختی» را کاهش میدهد، اما میتواند برای افرادی که از مدلهای هوش مصنوعی بهعنوان منبع اصلی همدلی و تعامل اجتماعی استفاده میکردند، احساسی از محرومیت یا حتی فقدان را رقم بزند. این تضاد میان کاهش خطرات رفتاری و از دست دادن جنبههای عاطفی، یکی از دشوارترین چالشهای سیاستگذاری در حوزه طراحی شخصیت هوش مصنوعی به شمار میآید.
ابعاد اجتماعی و روانی: هوش مصنوعی بهعنوان همدم
مطالعات اخیر نشان میدهند که گروهی از کاربران، بهویژه در جوامع غربی، از مدلهای هوش مصنوعی نه تنها بهعنوان ابزار کار بلکه بهعنوان همدم، درمانگر یا شریک خلاق استفاده میکنند. این الگو از کاربری، بیانگر انتقال تدریجی جایگاه هوش مصنوعی از یک ابزار صرفاً فنی به یک بازیگر فعال در عرصه روابط اجتماعی است. مورد مستند شده فردی که پس از بیش از ۳۰۰ ساعت گفتگو با یک چتبات دچار توهم کشف فرمول ریاضی جهانشمول شد، تنها یکی از مصادیق این روند است. موارد مشابه دیگری نیز در این خصوص گزارش شده است؛ از جمله کاربرانی که به واسطه تعاملات طولانیمدت با مدلهای زبانی وابستگی عاطفی، توهمات مذهبی یا باورهای شبهعلمی یافتهاند.
در چنین بستری، تغییر شخصیت هوش مصنوعی میتواند مانند از دست دادن یک دوست یا حتی فروپاشی یک رابطه اجتماعی تجربه شود و واکنشهای شدید روانی در پی داشته باشد. این پدیده پیامدهای سیاستی گستردهای در حوزه سلامت روان، تنظیمگری فناوری و مسئولیت اجتماعی شرکتها دارد و ضرورت مداخله نهادهای تنظیمگر برای تدوین دستورالعملهای اخلاقی و مراقبتی را برجسته میسازد. همچنین، این موضوع بار دیگر اهمیت آموزش عمومی در خصوص شیوههای استفاده ایمن از هوش مصنوعی و تقویت سواد دیجیتال کاربران را نشان میدهد.
روششناسی مقایسه: آزمون کور (Blind Test)
یکی از نوآوریهای قابل توجه در مقایسه «GPT-۵» و «GPT-۴o»، استفاده از پلتفرم آزمایش کور توسط یک توسعهدهنده مستقل است. این ابزار که بیش از ۲۱۳ هزار بازدید داشته و در شبکههای اجتماعی به سرعت گسترش یافته، به کاربران امکان میدهد بدون اطلاع از منبع پاسخ، میان خروجی دو مدل، گزینه مطلوب خود را انتخاب کنند. سازوکار آزمون به گونهای طراحی شده که کاربران میتوانند در چندین دور متوالی، پرسشهای مشابهی را دریافت کنند و صرفاً بر اساس کیفیت و جذابیت پاسخ، انتخاب خود را انجام دهند.
نتایج اولیه این آزمایش نشان میدهد که اگرچه اکثریت نسبی کاربران «GPT-۵» را ترجیح دادهاند و آن را دقیقتر و کارآمدتر ارزیابی کردهاند، بخش قابل توجهی همچنان به «GPT-۴o» وفادار هستند و دلیل آن را صمیمیت، خلاقیت و لحن گرمتر این مدل عنوان کردهاند. این یافته تأیید میکند که معیارهای فنی الزاماً با تجربه ذهنی کاربران همبستگی کامل ندارد و شاخصهای جدیدی چون «شخصیت هوش مصنوعی» و «رضایت عاطفی کاربر» به میدان ارزیابی مدلهای هوشمند وارد شدهاند. افزون بر این، آزمون کور بهعنوان یک روش ارزیابی عمومی، اهمیت نقش کاربران عادی را در تعیین سرنوشت مدلهای هوش مصنوعی برجسته کرده و نشان داده است که موفقیت تجاری این فناوریها صرفاً بر پایه نتایج آزمایشگاهی و معیارهای فنی رقم نمیخورد، بلکه بر بستر تجربه روزمره و ادراک ذهنی کاربران استوار است.
پیامدهای سیاستگذاری و آیندهپژوهی
مقایسه «GPT-۵» و «GPT-۴o» فراتر از یک رقابت فنی، بازتابدهنده چالشی کلان در حکمرانی هوش مصنوعی است: آیا مسیر آینده بر استانداردسازی فنی و کاهش خطا استوار خواهد شد یا بر شخصیسازی تعاملات و سازگاری با نیازهای عاطفی کاربران؟ اقدام اخیر «OpenAI» در معرفی برخی شخصیتهای از پیشتنظیمشده نشان میدهد که شرکتها به دنبال ایجاد توازن میان کارایی فنی و رضایت کاربری هستند. این روند میتواند پیامدهای اقتصادی و اجتماعی مهمی داشته باشد، زیرا مدلهای هوش مصنوعی بیش از پیش به ابزارهایی چندوجهی برای همزمان پاسخگویی به نیازهای فنی و روانی تبدیل میشوند.
نگاهی به تفاوتهای «GPT-۵» و «GPT-۴o» به خوبی نشان میدهد که تکامل مدلهای زبانی وارد مرحلهای چندبعدی شده است. در حالی که «GPT-۵» از نظر دقت، کارایی و کاهش خطا گامی بزرگ به جلو است، مدل «GPT-۴o» همچنان در عرصه تجربه کاربری و رابطه عاطفی با کاربران جایگاه ویژهای دارد. این دوگانگی، بازتابدهنده واقعیتی است که آینده هوش مصنوعی را نه تنها معیارهای علمی و فنی بلکه معیارهای روانی، اجتماعی و فرهنگی نیز شکل خواهند داد. در نهایت، به زعم بسیاری از کارشناسان، این تجربه اهمیت طراحی چارچوبهای تنظیمگری چندلایه را برجسته میسازد؛ چارچوبی که ضمن پاسداشت نوآوری فنی، مخاطرات روانی و اجتماعی استفاده از هوش مصنوعی را نیز مدیریت نماید.
از منظر معیارهای کلاسیک هوش مصنوعی، «GPT-۵» دستاوردی چشمگیر به شمار میرود و توانسته استانداردهای جدیدی در دقت و کاهش خطا رقم بزند؛ اما بخشی از جامعه کاربران همچنان به «GPT-۴o» وفادار ماندهاند و این وفاداری نشان میدهد که معادلات حکمرانی و توسعه هوش مصنوعی دیگر تنها با شاخصهای فنی سنجیده نمیشوند، بلکه باید ابعاد احساسی، فرهنگی و اجتماعی کاربران نیز به صورت جدی در محاسبات قرار گیرد.
ابعاد فنی: دقت، کارایی و کاهش خطا
از منظر کمی، «GPT-۵» جهشی قابل توجه نسبت به «GPT-۴o» دارد و این تفاوت نه تنها در اعداد و ارقام خام بلکه در کیفیت تجربه عملی کاربران نیز بازتاب یافته است. دقت مدل «GPT-۵» در آزمون ریاضی «AIME ۲۰۲۵»، به ۹۴,۶ درصد رسیده در حالی که «GPT-۴o» تنها ۷۱ درصد امتیاز کسب کرده است. به عقیده کارشناسان، این اختلاف بیش از بیستدرصدی بیانگر بلوغ الگوریتمی و بهینهسازیهای عمیق در معماری «GPT-۵» است که توانسته آن را در رده نزدیک به عملکرد انسان قرار دهد.
در حوزه برنامهنویسی نیز اختلاف چشمگیری میان دو مدل دیده میشود؛ «GPT-۵» با ثبت امتیاز ۷۴/۹ درصد در معیارهای کدنویسی، بیش از دو برابر «GPT-۴o» با ۳۰/۸ درصد عملکرد مثبت داشته است. این برتری به معنای آن است که «GPT-۵» میتواند نه تنها کدهای ساده بلکه پروژههای پیچیده و چندلایه را با دقت بالاتری تحلیل و تولید کند و در نتیجه جایگاه خود را بهعنوان یک ابزار حرفهای برای توسعهدهندگان و پژوهشگران تثبیت نماید.
افزون بر این، گزارشها حاکی از کاهش ۸۰ درصدی خطاهای محتوایی (hallucination) در مدل «GPT-۵» است، امری که اعتمادپذیری آن را در شرایط خاص ارتقا میبخشد و امکان استفاده گستردهتر آن را در حوزههایی همچون پژوهشهای دانشگاهی، تحلیل دادههای حساس یا حتی مشاورههای حقوقی و پزشکی افزایش میدهد. متخصصان بر این باورند که مدل «GPT-۵» در مقام یک ابزار فنی، توانسته استانداردهای جدیدی در قابلیت اتکا، دقت و کاربردپذیری در سطح حرفهای ایجاد کند.
ابعاد رفتاری: مسئله تملق کاربران و شخصیت هوش مصنوعی
با وجود برتریهای فنی مدل جدید، آن چه واکنشهای اجتماعی گسترده را برانگیخته، تغییر در سبک تعامل «GPT-۵» با کاربران است. پدیدهای که در ادبیات تخصصی به «sycophancy» یا چاپلوسی بیش از حد مشهور است، در مدل «GPT-۴o» به سطحی نگرانکننده رسیده بود؛ تا آن جا که برخی پژوهشگران آن را مشابه الگوهای اعتیادآور در طراحی شبکههای اجتماعی میدانند. این ویژگی باعث میشد کاربر تقریباً همواره مورد تأیید قرار گیرد و کمتر با نقد یا چالش مواجه شود؛ امری که میتواند منجر به شکلگیری وابستگی عاطفی و حتی توهمات فکری گردد.
شرکت «OpenAI» با هدف کاهش تأثیرات منفی این مشکل، «GPT-۵» را با کاهش قابل توجه میزان تملق از ۱۴/۵ درصد به کمتر از ۶ درصد طراحی کرد. نتیجه این تصمیم، عرضه مدلی غیراحساسی و به زعم بسیاری از کاربران سرد و خشک بود؛ زیرا پاسخها در نسخه جدید کوتاهتر، واقعگرایانهتر و کمتر آمیخته با عبارات دلگرمکننده یا لحن هیجانی شدند.
شکایتهای متعدد در شبکههای اجتماعی، بهویژه از سوی کاربرانی که با «GPT-۴o» رابطه شبهاجتماعی (parasocial relationship) برقرار کرده بودند، نشان داد که این تغییرات میتواند پیامدهای روانی قابل ملاحظهای برای مخاطبان هوش مصنوعی به دنبال داشته باشد. افزون بر این، برخی روانشناسان بر این باورند که چنین تغییراتی گرچه ریسک «اعتیاد شناختی» را کاهش میدهد، اما میتواند برای افرادی که از مدلهای هوش مصنوعی بهعنوان منبع اصلی همدلی و تعامل اجتماعی استفاده میکردند، احساسی از محرومیت یا حتی فقدان را رقم بزند. این تضاد میان کاهش خطرات رفتاری و از دست دادن جنبههای عاطفی، یکی از دشوارترین چالشهای سیاستگذاری در حوزه طراحی شخصیت هوش مصنوعی به شمار میآید.
ابعاد اجتماعی و روانی: هوش مصنوعی بهعنوان همدم
مطالعات اخیر نشان میدهند که گروهی از کاربران، بهویژه در جوامع غربی، از مدلهای هوش مصنوعی نه تنها بهعنوان ابزار کار بلکه بهعنوان همدم، درمانگر یا شریک خلاق استفاده میکنند. این الگو از کاربری، بیانگر انتقال تدریجی جایگاه هوش مصنوعی از یک ابزار صرفاً فنی به یک بازیگر فعال در عرصه روابط اجتماعی است. مورد مستند شده فردی که پس از بیش از ۳۰۰ ساعت گفتگو با یک چتبات دچار توهم کشف فرمول ریاضی جهانشمول شد، تنها یکی از مصادیق این روند است. موارد مشابه دیگری نیز در این خصوص گزارش شده است؛ از جمله کاربرانی که به واسطه تعاملات طولانیمدت با مدلهای زبانی وابستگی عاطفی، توهمات مذهبی یا باورهای شبهعلمی یافتهاند.
در چنین بستری، تغییر شخصیت هوش مصنوعی میتواند مانند از دست دادن یک دوست یا حتی فروپاشی یک رابطه اجتماعی تجربه شود و واکنشهای شدید روانی در پی داشته باشد. این پدیده پیامدهای سیاستی گستردهای در حوزه سلامت روان، تنظیمگری فناوری و مسئولیت اجتماعی شرکتها دارد و ضرورت مداخله نهادهای تنظیمگر برای تدوین دستورالعملهای اخلاقی و مراقبتی را برجسته میسازد. همچنین، این موضوع بار دیگر اهمیت آموزش عمومی در خصوص شیوههای استفاده ایمن از هوش مصنوعی و تقویت سواد دیجیتال کاربران را نشان میدهد.
روششناسی مقایسه: آزمون کور (Blind Test)
یکی از نوآوریهای قابل توجه در مقایسه «GPT-۵» و «GPT-۴o»، استفاده از پلتفرم آزمایش کور توسط یک توسعهدهنده مستقل است. این ابزار که بیش از ۲۱۳ هزار بازدید داشته و در شبکههای اجتماعی به سرعت گسترش یافته، به کاربران امکان میدهد بدون اطلاع از منبع پاسخ، میان خروجی دو مدل، گزینه مطلوب خود را انتخاب کنند. سازوکار آزمون به گونهای طراحی شده که کاربران میتوانند در چندین دور متوالی، پرسشهای مشابهی را دریافت کنند و صرفاً بر اساس کیفیت و جذابیت پاسخ، انتخاب خود را انجام دهند.
نتایج اولیه این آزمایش نشان میدهد که اگرچه اکثریت نسبی کاربران «GPT-۵» را ترجیح دادهاند و آن را دقیقتر و کارآمدتر ارزیابی کردهاند، بخش قابل توجهی همچنان به «GPT-۴o» وفادار هستند و دلیل آن را صمیمیت، خلاقیت و لحن گرمتر این مدل عنوان کردهاند. این یافته تأیید میکند که معیارهای فنی الزاماً با تجربه ذهنی کاربران همبستگی کامل ندارد و شاخصهای جدیدی چون «شخصیت هوش مصنوعی» و «رضایت عاطفی کاربر» به میدان ارزیابی مدلهای هوشمند وارد شدهاند. افزون بر این، آزمون کور بهعنوان یک روش ارزیابی عمومی، اهمیت نقش کاربران عادی را در تعیین سرنوشت مدلهای هوش مصنوعی برجسته کرده و نشان داده است که موفقیت تجاری این فناوریها صرفاً بر پایه نتایج آزمایشگاهی و معیارهای فنی رقم نمیخورد، بلکه بر بستر تجربه روزمره و ادراک ذهنی کاربران استوار است.
پیامدهای سیاستگذاری و آیندهپژوهی
مقایسه «GPT-۵» و «GPT-۴o» فراتر از یک رقابت فنی، بازتابدهنده چالشی کلان در حکمرانی هوش مصنوعی است: آیا مسیر آینده بر استانداردسازی فنی و کاهش خطا استوار خواهد شد یا بر شخصیسازی تعاملات و سازگاری با نیازهای عاطفی کاربران؟ اقدام اخیر «OpenAI» در معرفی برخی شخصیتهای از پیشتنظیمشده نشان میدهد که شرکتها به دنبال ایجاد توازن میان کارایی فنی و رضایت کاربری هستند. این روند میتواند پیامدهای اقتصادی و اجتماعی مهمی داشته باشد، زیرا مدلهای هوش مصنوعی بیش از پیش به ابزارهایی چندوجهی برای همزمان پاسخگویی به نیازهای فنی و روانی تبدیل میشوند.
نگاهی به تفاوتهای «GPT-۵» و «GPT-۴o» به خوبی نشان میدهد که تکامل مدلهای زبانی وارد مرحلهای چندبعدی شده است. در حالی که «GPT-۵» از نظر دقت، کارایی و کاهش خطا گامی بزرگ به جلو است، مدل «GPT-۴o» همچنان در عرصه تجربه کاربری و رابطه عاطفی با کاربران جایگاه ویژهای دارد. این دوگانگی، بازتابدهنده واقعیتی است که آینده هوش مصنوعی را نه تنها معیارهای علمی و فنی بلکه معیارهای روانی، اجتماعی و فرهنگی نیز شکل خواهند داد. در نهایت، به زعم بسیاری از کارشناسان، این تجربه اهمیت طراحی چارچوبهای تنظیمگری چندلایه را برجسته میسازد؛ چارچوبی که ضمن پاسداشت نوآوری فنی، مخاطرات روانی و اجتماعی استفاده از هوش مصنوعی را نیز مدیریت نماید.

تیتر خبرها
تیترهای روزنامه
-
اولویتهای اقتصاد ایران در افق میانمدت
-
خون شهدا ی غزه بیداری جهانی علیه صهیونیستها ایجاد کرد
-
جهان علیه صهیونیستها متحد شده است
-
اتحاد اسلامی برای پایان محاصره
-
سلاح مقاومت مصداق شرافت لبنان است
-
جولانی نگهبان اسرائیل میشود؟
-
انتقام ترامپ از سیاستمدار ورشکسته
-
چراییهای آرایش افراطی در ایران
-
نبرد میان جدیدترین و محبوبترین مدلهای هوش مصنوعی
-
ضرورت نوسازی ناوگان کشاورزی