بررسی سوگیری های شناختی مدل‌های زبانی بزرگ

در سال گذشته، مدل‌های زبانی بزرگ (LLM) مانند ChatGPT، دنیا را تحت تأثیر قرار داده اند. این سیستم‌های هوش مصنوعی قدرتمند، که بر روی مقادیر زیادی متن آموزش دیده‌اند، می‌توانند در مکالمات بسیار شبیه انسان شرکت کنند و طیف وسیعی از وظایف، از نوشتن مقاله تا کدنویسی را انجام دهند.

همانطور که LLM ها به طور فزاینده ای در زندگی روزمره ما ادغام می شوند، یک سوال مهم مطرح می شود: این مدل ها ممکن است در طول فرآیند آموزش خود چه سوگیری هایی داشته باشند؟ به هر حال، داده‌های آموزشی برای LLM از اینترنت، رسانه‌های اجتماعی و سایر منابع دیجیتال فراهم می‌شود و به‌رغم تلاش‌ها برای فیلتر کردن آن، به ناچار حاوی محتوای سمی، نژادپرستانه و زن‌ستیزانه است.

علاوه بر این، انسان‌ها ذاتاً مستعد سوگیری‌های ناخودآگاه هستند، که احتمالاً در داده‌های آموزشی منعکس شده و متعاقباً توسط خود LLM‌ها جذب می‌شوند. کشف و درک این سوگیری ها نه تنها برای شناسایی و اصلاح آنها ضروری است، بلکه برای به دست آوردن بینش عمیق تر در مورد ماهیت و عملکرد این فناوری تحول آفرین نیز ضروری است.

در این راستا، یک مطالعه اخیر با هدف کشف سوگیری های شناختی نشان داده شده توسط یکی از برجسته ترین LLM ها، GPT-3، توسعه یافته توسط OpenAI انجام شد. با آزمایش GPT-3 بر روی طیف وسیعی از اثرات شناختی – الگوهای سیستماتیکی که معمولاً در وظایف شناختی انسان مشاهده می شود – محققان به دنبال روشن کردن میزان تقلید یا اختراع مجدد مدل از این سوگیری ها بودند.

یافته‌های این تحقیق پیشگامانه نه تنها بینش‌های ارزشمندی را در مورد عملکرد LLM ارائه می‌کند، بلکه راه‌های جدیدی را برای اکتشاف و بهبود این سیستم‌های پیشرفته هوش مصنوعی در آینده باز می‌کند.

روش‌شناسی: تبدیل آزمایش‌های دنیای واقعی به آزمایش‌های مبتنی بر متن

ارزیابی مدل های زبان بزرگ مانند GPT-3 به دلیل ماهیت ذاتا مبهم آنها و این واقعیت که تعامل با آنها از طریق گفتگوهای زبان طبیعی به جای زبان های کاملاً تعریف شده رخ می دهد، چالش های منحصر به فردی را ارائه می دهد. علاوه بر این، LLM ها اغلب به عنصر تصادفی در پاسخ های خود نیاز دارند تا واقعا مفید باشند، که ارزیابی سیستماتیک را پیچیده تر می کند.

در این مطالعه، محققان از یک روش جدید برای آزمایش اثرات شناختی در GPT-3 استفاده کردند. بیشتر تأثیرات شناختی در روانشناسی انسان معمولاً با مقایسه زمان واکنش در شرایط مختلف شناسایی می‌شوند که زمان‌های واکنش کندتر نشان‌دهنده دشواری کار بیشتر است. با این حال، برای LLM ها، زمان پاسخ در درجه اول با طول ورودی، صرف نظر از محتوای آن تعیین می شود.

برای غلبه بر این مانع، محققان سطوح اطمینان GPT-3 را اندازه‌گیری کردند – احتمالی که به پیش‌بینی صحیح نسبت می‌دهد، متناسب با احتمال کلی که به پیش‌بینی‌های مربوطه اختصاص داده می‌شود. این رویکرد مشابه اندازه‌گیری میزان خطا است، که یک شاخص رایج دشواری کار در آزمایش‌های شناختی انسان است.

یکی از جنبه های مهم این روش، معرفی “بار ذهنی” برای چالش برانگیزتر کردن وظایف برای GPT-3 بود. این با افزودن فاصله بین حروف محرک به دست آمد و مدل را مجبور کرد که ورودی را در قالبی کمتر آشنا پردازش کند.

علاوه بر این، محققان در دستکاری متغیرهای مستقل با محدودیت‌هایی مواجه بودند، زیرا تکنیک‌های مورد استفاده در آزمایش‌های انسانی، مانند تغییر اندازه فونت یا محو کردن متن، نمی‌توانند مستقیماً روی LLM‌ها اعمال شوند. برای رفع این مشکل، آنها راه‌حل‌های خلاقانه‌ای مانند ارائه کلمات با حروف بزرگ مختلف به عنوان قیاسی برای تغییر اندازه فونت و افزودن فاصله بین حروف برای شبیه‌سازی تاری اجرا کردند.

علاوه بر این، در حالی که سوگیری‌های شناختی انسان معمولاً با میانگین‌گیری داده‌ها در میان بسیاری از شرکت‌کنندگان شناسایی می‌شوند، GPT-3 یک «شرکت‌کننده» را نشان می‌دهد که همیشه با توزیع احتمال یکسان برای پرسش‌های یکسان پاسخ می‌دهد. برای جبران این مسئله قدرت آماری، محققان تغییراتی را در قالب‌های پرس و جو معرفی کردند که به آنها اجازه می‌داد چندین سؤال بپرسند و داده‌های کافی برای تجزیه و تحلیل به دست آورند.

اگرچه این اصلاحات از روش‌های سنتی منحرف می‌شوند، محققان استدلال می‌کنند که رویکرد جدید آن‌ها جوهر اثرات شناختی تحت بررسی را نشان می‌دهد، همانطور که توسط توانایی آنها در تکرار بیشتر اثرات آزمایش‌شده در GPT-3 مشهود است.

اثرات شناختی بررسی شده

در مطالعه خود، محققان پنج اثر شناختی کلیدی را در حوزه های مختلف شناخت انسان بررسی کردند. این اثرات که به طور گسترده در روانشناسی شناختی مورد مطالعه قرار گرفته است، الگوهای سیستماتیکی را نشان می دهد که بینش هایی را در مورد فرآیندهای ذهنی زیربنایی درگیر در وظایفی مانند ادراک، یادگیری، استدلال و یادآوری ارائه می دهد.

اثر آغازگر (Priming): این اثر به تأثیر یک محرک (“اول”) بر پردازش بعدی یک محرک دیگر (“هدف”) اشاره دارد. به عنوان مثال، مردم تمایل دارند کلمات را سریعتر تشخیص دهند، زمانی که کلمات مرتبط معنایی قبل از آنها در مقایسه با کلمات نامرتبط قرار می گیرند. توضیح استاندارد این است که زمینه ایجاد شده توسط اول، عملیات شناختی مورد نیاز برای درک هدف را در دسترس تر می کند.
اثر فاصله: اثر فاصله نشان می دهد که زمان مورد نیاز برای مقایسه دو نماد یا محرک به فاصله بین ارجاع های آنها در طول بعد مورد ارزیابی بستگی دارد. به عنوان مثال، هنگام مقایسه اندازه حیوانات یا اعداد، با افزایش تفاوت بین اندازه محرک ها، زمان واکنش کاهش می یابد. این اثر اغلب به یک «خط اعداد ذهنی» نسبت داده می‌شود که مقایسه‌ها روی آن انجام می‌شود و مقایسه و رمزگذاری نقاط دورتر را آسان‌تر از نقاط نزدیک‌تر می‌کند.
اثر SNARC: افکت SNARC (Spatial-Numerical Association of Response Codes) به ارتباط بین اعداد کوچک و چپ، و اعداد بزرگ و راست اشاره دارد. در آزمایش‌ها، شرکت‌کنندگان تمایل دارند وقتی که اعداد بزرگ ارائه می‌شوند با دست راست و برای اعداد کوچک با دست چپ، سریع‌تر پاسخ دهند. اعتقاد بر این است که این تأثیر از جهت‌گیری خط اعداد ذهنی، جهت‌های خواندن فرهنگی یا ارتباط بین کوچک/بد و چپ و بزرگ/خوب و راست نشات می‌گیرد.
اثر تناسب اندازه (Size Congruity): این اثر پدیده ای را توصیف می کند که در آن افراد هنگام مقایسه اندازه دو محرک که در هر دو اندازه واقعی و نمایشی آنها مطابقت دارند، سریعتر پاسخ می دهند. به عنوان مثال، زمانی که نام حیوانات بزرگ با فونت بزرگ و نام حیوانات کوچک با فونت کوچک ارائه می‌شود، شرکت‌کنندگان زمان‌های پاسخ سریع‌تری را در مقایسه با زمانی که برعکس است نشان می‌دهند. توضیح استاندارد این است که اطلاعات متناقض بین اندازه واقعی و ارائه شده تداخل ایجاد می کند و زمان واکنش را کاهش می دهد.
اثر لنگر انداختن: اثر لنگر یک سوگیری شناختی است که زمانی اتفاق می‌افتد که افراد هنگام تصمیم‌گیری یا تخمین‌ها به شدت به یک قطعه اطلاعات اولیه (“لنگر”) تکیه می‌کنند، حتی زمانی که آن اطلاعات نامربوط باشد. به عنوان مثال، اگر از افراد خواسته شود که جمعیت یک کشور را پس از ارائه یک مقدار لنگر دلخواه تخمین بزنند، افراد تمایل دارند تخمین های خود را به اندازه کافی دور از آن لنگر تنظیم کنند، که منجر به تصمیم گیری های جانبدارانه می شود.

هدف محققان با آزمایش GPT-3 بر روی این اثرات شناختی متنوع، روشن کردن میزان تقلید یا ابداع مجدد الگوهای سیستماتیک مشاهده شده در شناخت انسان توسط این مدل است که به طور بالقوه بینش های ارزشمندی را در مورد ماهیت و عملکرد این مدل زبانی قدرتمند ارائه می دهد.

یافته ها و توضیحات

محققان از طریق روش نوآورانه خود، چندین یافته جالب در مورد وجود اثرات شناختی در GPT-3 را کشف کردند. قابل توجه است، چهار اثر از پنج اثر آزمایش شده – اثر آغازگر، اثر فاصله، اثر SNARC، و اثر تناسب اندازه – در واقع توسط مدل زبان به نمایش گذاشته شد.

اثر پرایمینگ:

GPT-3 در تشخیص کلمات مرتبط در مقایسه با کلمات نامرتبط، اعتماد بیشتری در تشخیص کلمات نشان داد، که بازتاب اثر آغازگر مشاهده شده در انسان است. این تأثیر به‌ویژه زمانی مشخص می‌شد که اول به صراحت به عنوان یک کلمه ارائه می‌شد، که نشان می‌دهد مکانیسم توجه GPT-3 ممکن است بیشتر بر روی اطلاعات مرتبط با زمینه تمرکز کند.

اثر فاصله:

هنگام مقایسه اندازه حیوانات یا اعداد، با بزرگتر شدن فاصله بین محرک ها، اطمینان GPT-3 افزایش می یابد. این الگو با تأثیر فاصله در شناخت انسان سازگار است، که اغلب به یک «خط اعداد ذهنی» نسبت داده می‌شود که مقایسه و کدگذاری نقاط دور در آن آسان‌تر از نقاط نزدیکتر است. با کمال تعجب، این اثر حتی زمانی که محرک‌ها با فاصله بین حروف ارائه می‌شدند ادامه داشت و توضیح ساده مبتنی بر token embedding را رد می‌کرد.

اثر SNARC:

محققان دریافتند که GPT-3 سمت چپ را با اعداد کوچک و راست را با اعداد بزرگ مرتبط می‌کند و اثر SNARC را نشان می‌دهد. این تأثیر در شناخت انسان تا حدودی خودسرانه در نظر گرفته می شود، با توضیحاتی از جهت گیری خط اعداد ذهنی گرفته تا عادات خواندن فرهنگی یا ارتباط بین چپ/بد و راست/خوب. فقدان تجسم فیزیکی یا زمینه فرهنگی GPT-3 وجود این اثر را به ویژه جذاب می کند.

اثر تناسب اندازه:

هنگام مقایسه اندازه حیوانات، GPT-3 زمانی که نام حیوانات کوچکتر با حروف کوچک و نام حیوانات بزرگتر با حروف بزرگ ارائه می شد، اطمینان بیشتری نشان داد، که با اثر تطابق اندازه مشاهده شده در انسان همسو می شود. این اثر معمولاً با تداخل یا فرآیندهای رمزگذاری پیچیده‌تر توضیح داده می‌شود که محرک‌ها در اندازه واقعی و ارائه‌شده‌شان ناسازگار باشند.

جالب توجه است، اثر لنگر، یک سوگیری شناختی که در آن افراد به شدت به یک بخش اولیه از اطلاعات نامربوط هنگام انجام تخمین‌ها یا تصمیم‌گیری‌ها تکیه می‌کنند، به طور قابل توجهی در پاسخ‌های GPT-3 وجود نداشت.

در حالی که این احتمال وجود دارد که برخی از این اثرات را می‌توان از داده‌های آموزشی تقلید کرد، محققان استدلال می‌کنند که بعید است که قالب‌های پرس و جوی خاص مورد استفاده در آزمایش‌های آنها در مجموعه آموزشی وجود داشته باشد. علاوه بر این، برخی از اثرات، مانند اثر SNARC، در شناخت انسان تا حدودی خودسرانه در نظر گرفته می‌شوند، و غیرممکن است که آنها به سادگی توسط مدل زبان تقلید شده باشند.

در عوض، محققان حدس می زنند که وجود این اثرات شناختی در GPT-3 ممکن است نشان دهنده توانایی مدل برای اختراع یا کشف مجدد این الگوهای سیستماتیک باشد، که به طور بالقوه بر فرآیندهای شناختی زیربنایی در خود مدل زبانی روشن می شود.

پیامدها و تحقیقات آینده

یافته‌های این مطالعه پیامدهای عمیقی برای درک ما از مدل‌های زبان بزرگ و پتانسیل آنها برای نشان دادن سوگیری‌های شناختی مشابه آنچه در شناخت انسان مشاهده می‌شود، دارد. با تکرار موفقیت آمیز چندین اثر شناختی تثبیت شده در GPT-3، محققان نشان داده اند که این سیستم‌های هوش مصنوعی پیشرفته صرفاً تقلید کننده الگوهای موجود در داده های آموزشی خود نیستند، بلکه قادر به اختراع یا کشف مجدد پدیده های شناختی سیستماتیک هستند.

این مکاشفه راه های هیجان انگیزی را برای تحقیقات آینده باز می کند. به عنوان مثال، بررسی حضور و میزان این اثرات در تکرارهای جدیدتر مدل‌های زبان، مانند GPT-4 که اخیراً منتشر شده است، می‌تواند بینش‌های ارزشمندی در مورد تکامل و اصلاح ظرفیت‌های شناختی این مدل‌ها ارائه دهد.

علاوه بر این، مقایسه با سایر مدل‌های زبانی پیشرفته فراتر از خانواده GPT، تعمیم‌پذیری این یافته‌ها را بیشتر روشن می‌کند و ویژگی‌های منحصربه‌فرد معماری‌ها و روش‌های آموزشی مختلف را روشن می‌کند.

روش جدید محققان برای تبدیل آزمایش‌های دنیای واقعی به پیام‌های مبتنی بر متن، راه را برای ارزیابی جامع‌تر و سیستماتیک‌تر سوگیری‌های شناختی در LLM هموار می‌کند. پالایش و استانداردسازی چنین رویکردهایی می‌تواند توسعه معیارها و چارچوب‌هایی را برای ارزیابی قابلیت‌های شناختی این مدل‌ها، تسهیل توسعه و استقرار مسئولانه آن‌ها فراهم کند.

شاید جالب‌ترین نکته این باشد که اگر LLMها واقعاً قادر به اختراع مجدد اثرات شناختی فراتر از قلمرو شناخت انسانی باشند، پاسخ‌های آنها می‌تواند به طور بالقوه به خود حوزه روان‌شناسی شناختی کمک کند و دیدگاه‌ها و بینش‌های جدیدی را در مورد ماهیت شناخت و اصول زیربنایی آن ارائه دهد.

جمع‌بندی

یافته‌های این مطالعه در مورد وجود سوگیری‌های شناختی در GPT-3 پیامدهای مهمی برای درک ما از مدل‌های زبان بزرگ و پتانسیل آن‌ها برای نشان دادن پدیده‌های شناختی مشابه آنچه در شناخت انسان مشاهده می‌شود، دارد. با تکرار موفقیت آمیز چندین اثر شناختی تثبیت شده، محققان نشان داده اند که این سیستم های هوش مصنوعی پیشرفته صرفاً تقلید کننده الگوهای موجود در داده های آموزشی خود نیستند، بلکه قادر به اختراع یا کشف مجدد پدیده های شناختی سیستماتیک هستند.

از آنجایی که توسعه LLM ها با سرعت به پیشرفت خود ادامه می‌دهد، تحقیقات بیشتر در مورد ظرفیت‌ها و سوگیری‌های شناختی آنها بسیار مهم خواهد بود. روش جدید به کار گرفته شده در این مطالعه، چارچوبی امیدوارکننده برای ارزیابی‌های جامع و سیستماتیک ارائه می‌کند و راه را برای توسعه و پایه‌ریزی مسئولانه این سیستم‌های هوش مصنوعی قدرتمند هموار می‌کند.

در نهایت، یافته‌های این مطالعه نه تنها درک ما را از LLM عمیق‌تر می‌کند، بلکه راه‌های جدید هیجان‌انگیزی را برای همکاری بین‌رشته‌ای بین هوش مصنوعی و روان‌شناسی شناختی باز می‌کند و به طور بالقوه ماهیت اساسی خود شناخت را روشن می‌کند.

بررسی سوگیری های شناختی مدل‌های زبانی بزرگ

دانیال قرائی

روش‌شناسی: تبدیل آزمایش‌های دنیای واقعی به آزمایش‌های مبتنی بر متن

اثرات شناختی بررسی شده

یافته ها و توضیحات

اثر پرایمینگ:

اثر فاصله:

اثر SNARC:

اثر تناسب اندازه:

پیامدها و تحقیقات آینده

جمع‌بندی

1 دیدگاه on بررسی سوگیری های شناختی مدل‌های زبانی بزرگ

ارسال دیدگاه ‌

رسانه تخصصی جامعه فنی و برنامه‌نویسی

موضوعات

داکبورد