در سال گذشته، مدلهای زبانی بزرگ (LLM) مانند ChatGPT، دنیا را تحت تأثیر قرار داده اند. این سیستمهای هوش مصنوعی قدرتمند، که بر روی مقادیر زیادی متن آموزش دیدهاند، میتوانند در مکالمات بسیار شبیه انسان شرکت کنند و طیف وسیعی از وظایف، از نوشتن مقاله تا کدنویسی را انجام دهند.
همانطور که LLM ها به طور فزاینده ای در زندگی روزمره ما ادغام می شوند، یک سوال مهم مطرح می شود: این مدل ها ممکن است در طول فرآیند آموزش خود چه سوگیری هایی داشته باشند؟ به هر حال، دادههای آموزشی برای LLM از اینترنت، رسانههای اجتماعی و سایر منابع دیجیتال فراهم میشود و بهرغم تلاشها برای فیلتر کردن آن، به ناچار حاوی محتوای سمی، نژادپرستانه و زنستیزانه است.
علاوه بر این، انسانها ذاتاً مستعد سوگیریهای ناخودآگاه هستند، که احتمالاً در دادههای آموزشی منعکس شده و متعاقباً توسط خود LLMها جذب میشوند. کشف و درک این سوگیری ها نه تنها برای شناسایی و اصلاح آنها ضروری است، بلکه برای به دست آوردن بینش عمیق تر در مورد ماهیت و عملکرد این فناوری تحول آفرین نیز ضروری است.
در این راستا، یک مطالعه اخیر با هدف کشف سوگیری های شناختی نشان داده شده توسط یکی از برجسته ترین LLM ها، GPT-3، توسعه یافته توسط OpenAI انجام شد. با آزمایش GPT-3 بر روی طیف وسیعی از اثرات شناختی – الگوهای سیستماتیکی که معمولاً در وظایف شناختی انسان مشاهده می شود – محققان به دنبال روشن کردن میزان تقلید یا اختراع مجدد مدل از این سوگیری ها بودند.
یافتههای این تحقیق پیشگامانه نه تنها بینشهای ارزشمندی را در مورد عملکرد LLM ارائه میکند، بلکه راههای جدیدی را برای اکتشاف و بهبود این سیستمهای پیشرفته هوش مصنوعی در آینده باز میکند.
روششناسی: تبدیل آزمایشهای دنیای واقعی به آزمایشهای مبتنی بر متن
ارزیابی مدل های زبان بزرگ مانند GPT-3 به دلیل ماهیت ذاتا مبهم آنها و این واقعیت که تعامل با آنها از طریق گفتگوهای زبان طبیعی به جای زبان های کاملاً تعریف شده رخ می دهد، چالش های منحصر به فردی را ارائه می دهد. علاوه بر این، LLM ها اغلب به عنصر تصادفی در پاسخ های خود نیاز دارند تا واقعا مفید باشند، که ارزیابی سیستماتیک را پیچیده تر می کند.
در این مطالعه، محققان از یک روش جدید برای آزمایش اثرات شناختی در GPT-3 استفاده کردند. بیشتر تأثیرات شناختی در روانشناسی انسان معمولاً با مقایسه زمان واکنش در شرایط مختلف شناسایی میشوند که زمانهای واکنش کندتر نشاندهنده دشواری کار بیشتر است. با این حال، برای LLM ها، زمان پاسخ در درجه اول با طول ورودی، صرف نظر از محتوای آن تعیین می شود.
برای غلبه بر این مانع، محققان سطوح اطمینان GPT-3 را اندازهگیری کردند – احتمالی که به پیشبینی صحیح نسبت میدهد، متناسب با احتمال کلی که به پیشبینیهای مربوطه اختصاص داده میشود. این رویکرد مشابه اندازهگیری میزان خطا است، که یک شاخص رایج دشواری کار در آزمایشهای شناختی انسان است.
یکی از جنبه های مهم این روش، معرفی “بار ذهنی” برای چالش برانگیزتر کردن وظایف برای GPT-3 بود. این با افزودن فاصله بین حروف محرک به دست آمد و مدل را مجبور کرد که ورودی را در قالبی کمتر آشنا پردازش کند.
علاوه بر این، محققان در دستکاری متغیرهای مستقل با محدودیتهایی مواجه بودند، زیرا تکنیکهای مورد استفاده در آزمایشهای انسانی، مانند تغییر اندازه فونت یا محو کردن متن، نمیتوانند مستقیماً روی LLMها اعمال شوند. برای رفع این مشکل، آنها راهحلهای خلاقانهای مانند ارائه کلمات با حروف بزرگ مختلف به عنوان قیاسی برای تغییر اندازه فونت و افزودن فاصله بین حروف برای شبیهسازی تاری اجرا کردند.
علاوه بر این، در حالی که سوگیریهای شناختی انسان معمولاً با میانگینگیری دادهها در میان بسیاری از شرکتکنندگان شناسایی میشوند، GPT-3 یک «شرکتکننده» را نشان میدهد که همیشه با توزیع احتمال یکسان برای پرسشهای یکسان پاسخ میدهد. برای جبران این مسئله قدرت آماری، محققان تغییراتی را در قالبهای پرس و جو معرفی کردند که به آنها اجازه میداد چندین سؤال بپرسند و دادههای کافی برای تجزیه و تحلیل به دست آورند.
اگرچه این اصلاحات از روشهای سنتی منحرف میشوند، محققان استدلال میکنند که رویکرد جدید آنها جوهر اثرات شناختی تحت بررسی را نشان میدهد، همانطور که توسط توانایی آنها در تکرار بیشتر اثرات آزمایششده در GPT-3 مشهود است.
اثرات شناختی بررسی شده
در مطالعه خود، محققان پنج اثر شناختی کلیدی را در حوزه های مختلف شناخت انسان بررسی کردند. این اثرات که به طور گسترده در روانشناسی شناختی مورد مطالعه قرار گرفته است، الگوهای سیستماتیکی را نشان می دهد که بینش هایی را در مورد فرآیندهای ذهنی زیربنایی درگیر در وظایفی مانند ادراک، یادگیری، استدلال و یادآوری ارائه می دهد.
- اثر آغازگر (Priming): این اثر به تأثیر یک محرک (“اول”) بر پردازش بعدی یک محرک دیگر (“هدف”) اشاره دارد. به عنوان مثال، مردم تمایل دارند کلمات را سریعتر تشخیص دهند، زمانی که کلمات مرتبط معنایی قبل از آنها در مقایسه با کلمات نامرتبط قرار می گیرند. توضیح استاندارد این است که زمینه ایجاد شده توسط اول، عملیات شناختی مورد نیاز برای درک هدف را در دسترس تر می کند.
- اثر فاصله: اثر فاصله نشان می دهد که زمان مورد نیاز برای مقایسه دو نماد یا محرک به فاصله بین ارجاع های آنها در طول بعد مورد ارزیابی بستگی دارد. به عنوان مثال، هنگام مقایسه اندازه حیوانات یا اعداد، با افزایش تفاوت بین اندازه محرک ها، زمان واکنش کاهش می یابد. این اثر اغلب به یک «خط اعداد ذهنی» نسبت داده میشود که مقایسهها روی آن انجام میشود و مقایسه و رمزگذاری نقاط دورتر را آسانتر از نقاط نزدیکتر میکند.
- اثر SNARC: افکت SNARC (Spatial-Numerical Association of Response Codes) به ارتباط بین اعداد کوچک و چپ، و اعداد بزرگ و راست اشاره دارد. در آزمایشها، شرکتکنندگان تمایل دارند وقتی که اعداد بزرگ ارائه میشوند با دست راست و برای اعداد کوچک با دست چپ، سریعتر پاسخ دهند. اعتقاد بر این است که این تأثیر از جهتگیری خط اعداد ذهنی، جهتهای خواندن فرهنگی یا ارتباط بین کوچک/بد و چپ و بزرگ/خوب و راست نشات میگیرد.
- اثر تناسب اندازه (Size Congruity): این اثر پدیده ای را توصیف می کند که در آن افراد هنگام مقایسه اندازه دو محرک که در هر دو اندازه واقعی و نمایشی آنها مطابقت دارند، سریعتر پاسخ می دهند. به عنوان مثال، زمانی که نام حیوانات بزرگ با فونت بزرگ و نام حیوانات کوچک با فونت کوچک ارائه میشود، شرکتکنندگان زمانهای پاسخ سریعتری را در مقایسه با زمانی که برعکس است نشان میدهند. توضیح استاندارد این است که اطلاعات متناقض بین اندازه واقعی و ارائه شده تداخل ایجاد می کند و زمان واکنش را کاهش می دهد.
- اثر لنگر انداختن: اثر لنگر یک سوگیری شناختی است که زمانی اتفاق میافتد که افراد هنگام تصمیمگیری یا تخمینها به شدت به یک قطعه اطلاعات اولیه (“لنگر”) تکیه میکنند، حتی زمانی که آن اطلاعات نامربوط باشد. به عنوان مثال، اگر از افراد خواسته شود که جمعیت یک کشور را پس از ارائه یک مقدار لنگر دلخواه تخمین بزنند، افراد تمایل دارند تخمین های خود را به اندازه کافی دور از آن لنگر تنظیم کنند، که منجر به تصمیم گیری های جانبدارانه می شود.
هدف محققان با آزمایش GPT-3 بر روی این اثرات شناختی متنوع، روشن کردن میزان تقلید یا ابداع مجدد الگوهای سیستماتیک مشاهده شده در شناخت انسان توسط این مدل است که به طور بالقوه بینش های ارزشمندی را در مورد ماهیت و عملکرد این مدل زبانی قدرتمند ارائه می دهد.
یافته ها و توضیحات
محققان از طریق روش نوآورانه خود، چندین یافته جالب در مورد وجود اثرات شناختی در GPT-3 را کشف کردند. قابل توجه است، چهار اثر از پنج اثر آزمایش شده – اثر آغازگر، اثر فاصله، اثر SNARC، و اثر تناسب اندازه – در واقع توسط مدل زبان به نمایش گذاشته شد.
اثر پرایمینگ:
GPT-3 در تشخیص کلمات مرتبط در مقایسه با کلمات نامرتبط، اعتماد بیشتری در تشخیص کلمات نشان داد، که بازتاب اثر آغازگر مشاهده شده در انسان است. این تأثیر بهویژه زمانی مشخص میشد که اول به صراحت به عنوان یک کلمه ارائه میشد، که نشان میدهد مکانیسم توجه GPT-3 ممکن است بیشتر بر روی اطلاعات مرتبط با زمینه تمرکز کند.
اثر فاصله:
هنگام مقایسه اندازه حیوانات یا اعداد، با بزرگتر شدن فاصله بین محرک ها، اطمینان GPT-3 افزایش می یابد. این الگو با تأثیر فاصله در شناخت انسان سازگار است، که اغلب به یک «خط اعداد ذهنی» نسبت داده میشود که مقایسه و کدگذاری نقاط دور در آن آسانتر از نقاط نزدیکتر است. با کمال تعجب، این اثر حتی زمانی که محرکها با فاصله بین حروف ارائه میشدند ادامه داشت و توضیح ساده مبتنی بر token embedding را رد میکرد.
اثر SNARC:
محققان دریافتند که GPT-3 سمت چپ را با اعداد کوچک و راست را با اعداد بزرگ مرتبط میکند و اثر SNARC را نشان میدهد. این تأثیر در شناخت انسان تا حدودی خودسرانه در نظر گرفته می شود، با توضیحاتی از جهت گیری خط اعداد ذهنی گرفته تا عادات خواندن فرهنگی یا ارتباط بین چپ/بد و راست/خوب. فقدان تجسم فیزیکی یا زمینه فرهنگی GPT-3 وجود این اثر را به ویژه جذاب می کند.
اثر تناسب اندازه:
هنگام مقایسه اندازه حیوانات، GPT-3 زمانی که نام حیوانات کوچکتر با حروف کوچک و نام حیوانات بزرگتر با حروف بزرگ ارائه می شد، اطمینان بیشتری نشان داد، که با اثر تطابق اندازه مشاهده شده در انسان همسو می شود. این اثر معمولاً با تداخل یا فرآیندهای رمزگذاری پیچیدهتر توضیح داده میشود که محرکها در اندازه واقعی و ارائهشدهشان ناسازگار باشند.
جالب توجه است، اثر لنگر، یک سوگیری شناختی که در آن افراد به شدت به یک بخش اولیه از اطلاعات نامربوط هنگام انجام تخمینها یا تصمیمگیریها تکیه میکنند، به طور قابل توجهی در پاسخهای GPT-3 وجود نداشت.
در حالی که این احتمال وجود دارد که برخی از این اثرات را میتوان از دادههای آموزشی تقلید کرد، محققان استدلال میکنند که بعید است که قالبهای پرس و جوی خاص مورد استفاده در آزمایشهای آنها در مجموعه آموزشی وجود داشته باشد. علاوه بر این، برخی از اثرات، مانند اثر SNARC، در شناخت انسان تا حدودی خودسرانه در نظر گرفته میشوند، و غیرممکن است که آنها به سادگی توسط مدل زبان تقلید شده باشند.
در عوض، محققان حدس می زنند که وجود این اثرات شناختی در GPT-3 ممکن است نشان دهنده توانایی مدل برای اختراع یا کشف مجدد این الگوهای سیستماتیک باشد، که به طور بالقوه بر فرآیندهای شناختی زیربنایی در خود مدل زبانی روشن می شود.
پیامدها و تحقیقات آینده
یافتههای این مطالعه پیامدهای عمیقی برای درک ما از مدلهای زبان بزرگ و پتانسیل آنها برای نشان دادن سوگیریهای شناختی مشابه آنچه در شناخت انسان مشاهده میشود، دارد. با تکرار موفقیت آمیز چندین اثر شناختی تثبیت شده در GPT-3، محققان نشان داده اند که این سیستمهای هوش مصنوعی پیشرفته صرفاً تقلید کننده الگوهای موجود در داده های آموزشی خود نیستند، بلکه قادر به اختراع یا کشف مجدد پدیده های شناختی سیستماتیک هستند.
این مکاشفه راه های هیجان انگیزی را برای تحقیقات آینده باز می کند. به عنوان مثال، بررسی حضور و میزان این اثرات در تکرارهای جدیدتر مدلهای زبان، مانند GPT-4 که اخیراً منتشر شده است، میتواند بینشهای ارزشمندی در مورد تکامل و اصلاح ظرفیتهای شناختی این مدلها ارائه دهد.
علاوه بر این، مقایسه با سایر مدلهای زبانی پیشرفته فراتر از خانواده GPT، تعمیمپذیری این یافتهها را بیشتر روشن میکند و ویژگیهای منحصربهفرد معماریها و روشهای آموزشی مختلف را روشن میکند.
روش جدید محققان برای تبدیل آزمایشهای دنیای واقعی به پیامهای مبتنی بر متن، راه را برای ارزیابی جامعتر و سیستماتیکتر سوگیریهای شناختی در LLM هموار میکند. پالایش و استانداردسازی چنین رویکردهایی میتواند توسعه معیارها و چارچوبهایی را برای ارزیابی قابلیتهای شناختی این مدلها، تسهیل توسعه و استقرار مسئولانه آنها فراهم کند.
شاید جالبترین نکته این باشد که اگر LLMها واقعاً قادر به اختراع مجدد اثرات شناختی فراتر از قلمرو شناخت انسانی باشند، پاسخهای آنها میتواند به طور بالقوه به خود حوزه روانشناسی شناختی کمک کند و دیدگاهها و بینشهای جدیدی را در مورد ماهیت شناخت و اصول زیربنایی آن ارائه دهد.
جمعبندی
یافتههای این مطالعه در مورد وجود سوگیریهای شناختی در GPT-3 پیامدهای مهمی برای درک ما از مدلهای زبان بزرگ و پتانسیل آنها برای نشان دادن پدیدههای شناختی مشابه آنچه در شناخت انسان مشاهده میشود، دارد. با تکرار موفقیت آمیز چندین اثر شناختی تثبیت شده، محققان نشان داده اند که این سیستم های هوش مصنوعی پیشرفته صرفاً تقلید کننده الگوهای موجود در داده های آموزشی خود نیستند، بلکه قادر به اختراع یا کشف مجدد پدیده های شناختی سیستماتیک هستند.
از آنجایی که توسعه LLM ها با سرعت به پیشرفت خود ادامه میدهد، تحقیقات بیشتر در مورد ظرفیتها و سوگیریهای شناختی آنها بسیار مهم خواهد بود. روش جدید به کار گرفته شده در این مطالعه، چارچوبی امیدوارکننده برای ارزیابیهای جامع و سیستماتیک ارائه میکند و راه را برای توسعه و پایهریزی مسئولانه این سیستمهای هوش مصنوعی قدرتمند هموار میکند.
در نهایت، یافتههای این مطالعه نه تنها درک ما را از LLM عمیقتر میکند، بلکه راههای جدید هیجانانگیزی را برای همکاری بینرشتهای بین هوش مصنوعی و روانشناسی شناختی باز میکند و به طور بالقوه ماهیت اساسی خود شناخت را روشن میکند.