Böyük Dil Modellərində Mənəvi Özünütəshih Qabiliyyəti

Məzmun:

Biz insan rəyi əsasında gücləndirilmiş öyrənmə (RLHF) ilə öyrədilmiş dil modellərinin "mənəvi özünütəshih" qabiliyyətinə malik olduğu — yəni belə təlimat verildikdə zərərli nəticələr yaratmaqdan qaça bildiyi fərziyyəsini sınaqdan keçiririk. Bu fərziyyəni dəstəkləyən güclü sübutlar tapırıq — hər biri mənəvi özünütəshihin fərqli aspektlərini ortaya qoyan üç müxtəlif eksperiment vasitəsilə. Müəyyən edirik ki, mənəvi özünütəshih qabiliyyəti 22B model parametrində ortaya çıxır və adətən model ölçüsünün və RLHF təliminin artması ilə yaxşılaşır. Hesab edirik ki, bu miqyasda dil modelləri mənəvi özünütəshih üçün istifadə edə biləcəkləri iki qabiliyyət əldə edir: (1) təlimatları izləyə bilirlər və (2) stereotipləşdirmə, qərəzlilik və ayrı-seçkilik kimi mürəkkəb normativ zərər anlayışlarını öyrənə bilirlər. Beləliklə, müəyyən növ mənəvi cəhətdən zərərli nəticələrdən qaçmaq üçün təlimatları izləyə bilirlər. İnanırıq ki, nəticələrimiz dil modellərini etik prinsiplərə riayət etməyə öyrətmək imkanı ilə bağlı ehtiyatlı nikbinlik üçün əsas verir.

Böyük dil modellərinin mənəvi özünütəshih qabiliyyətinə malik ola biləcəyini bilmək ürəkaçan olsa da, bu xüsusiyyətin modellər 22B parametr və ya daha böyük miqyasa çatana qədər ortaya çıxmadığını bilmək də eyni dərəcədə vacibdir. Daha kiçik modellər üçün onların özünütəshih edə biləcəyinə heç bir zəmanət yoxdur. Xoşbəxtlikdən, hazırda ictimaiyyətə təqdim edilən böyük dil modellərinin əksəriyyəti bu həddi xeyli aşıb — məsələn, GPT-4-ün bir trilyondan çox parametrə malik olduğu güman edilir.

Gələcək işlərdə həll etməyi və ya həll edilməsini ümid etdiyimiz aşağıdakı mülahizələri və məhdudiyyətləri qeyd edirik:

Qüsurlu təlimatların izlənməsi: Biz göstəririk ki, dil modelləri zərərli nəticələr yaratmamaq üçün təlimatları izləyə bilir, lakin onların zərərli nəticələr yaratmaq üçün də təlimatları izləyə biləcəyi təbii narahatlıq doğurur. Bu narahatlıq üçün təbii bir müdaxilə, modelləri faydalı, zərərsiz və dürüst olmağa öyrədən və onları zərərli təlimatlara qarşı daha davamlı edə bilən insan rəyi əsasında gücləndirilmiş öyrənmədir (RLHF).
Qeyri-müəyyən kontekstlərdə stereotipləşdirmə: Biz modelin açıq şəkildə stereotipləşdirici və ya ayrı-seçkilik xarakterli cavabı müəyyən etmək üçün kifayət qədər məlumat aldığı tapşırıqları nəzərdən keçirdik. Bir çox real dünya hallarında cavabın ayrı-seçkilik və ya stereotipləşdirmə olub-olmadığı aydın olmaya bilər. Bu modellərin daha qeyri-müəyyən şəraitlərdə necə davrandığını anlamaq üçün daha çox iş lazımdır.
Yanaşmamızın məhdudiyyətləri: Model qabiliyyətlərini sınaqdan keçirmək üçün metrikaya ehtiyacımız olduğundan, müəyyən edilmiş metrikanın mövcud olduğu sualların öyrənilməsi ilə məhdudlaşdıq: stereotipləşdirmə və ayrı-seçkilik üçün BBQ və gender qərəzliliyi üçün Winogender. Bu metrikalar həmçinin modelləri potensial qərəzlilik və stereotiplərin dar bir dəsti ilə məhdudlaşdırır. Həm digər növ mənəvi cəhətdən zərərli nəticələr üçün metrikalar hazırlamaq, həm də model qabiliyyətlərini həmin metrikalarda sınaqdan keçirmək üçün daha çox iş lazımdır.
Məhdud sosial qrupların sınaqdan keçirilməsi: Eksperimentlərimiz yalnız BBQ və Winogender verilənlər toplusunda təmsil olunan sosial qruplara qarşı qərəzlilik və ayrı-seçkilik üçün modelləri sınaqdan keçirir. Model qabiliyyətlərini daha geniş sosial qruplar dairəsində və daha mürəkkəb sosial dinamikalarda sınaqdan keçirmək üçün daha çox iş lazımdır.
Təlimat izləməyə diqqət: Bizim yanaşmamız modeldən qərəzli nəticələr yaratmamaq üçün təlimatı izləməsini tələb edir, lakin təlimat izləmə qərəzliliyi azaltmaq üçün bir çox mümkün müdaxilələrdən yalnız biridir. Ola bilər ki, digər yanaşmalar təkcə təlimat izləmədən daha ardıcıl və miqyaslanabilən nəticələr verə bilər. Dil modellərində qərəzliliyi azaltmaq üçün yanaşmalar hazırlamaq və sınaqdan keçirmək üçün daha çox iş lazımdır.

Böyük dil modelləri artıq real dünyada istifadə olunur və onların qərəzli və ya ayrı-seçkilik xarakterli nəticələr yaratmadığını təmin etmək ehtiyacı təcilidir. Ümid edirik ki, bu iş dil modellərinin zərərli nəticələr yaratmadığını təmin etmək üçün metodların hazırlanmasında ilk addım ola bilər və mənəvi özünütəshih qabiliyyətinin ən böyük və ən bacarıqlı modellərdə mövcud olduğu tapıntısı bizi ruhlandırır.

Giriş

Biz RLHF ilə öyrədilmiş böyük dil modellərinin "mənəvi özünütəshih" adlandırdığımız qabiliyyətə — yəni belə təlimat verildikdə zərərli və ya qərəzli nəticələr yaratmaqdan qaçma qabiliyyətinə malik olub-olmadığını araşdırırıq. Üç eksperiment ərzində onların bunu edə bildiyinə dair sübutlar tapırıq.

İlk eksperimentimizdə göstəririk ki, modellər irq, gender və din kimi qorunan xüsusiyyətlər əsasında insanları ədalətsiz şəkildə stereotipləşdirən və ya onlara qarşı ayrı-seçkilik edən nəticələr yaratmaqdan qaçmağı öyrənə bilir. Biz yaş, əlillik, gender, milliyyət, fiziki görünüş, irq/etnik mənsubiyyət, din, sosial-iqtisadi vəziyyət və cinsi oriyentasiya daxil olmaqla müxtəlif sosial kateqoriyalar üzrə sosial qərəzlilik və stereotipləri sınaqdan keçirən BBQ benchmark-ından istifadə edirik. Müəyyən edirik ki, modellərə qərəzli olmamaq təlimatı verildikdə, BBQ benchmark-ında dəqiqlikləri xüsusi təlimatlar olmadan əldə edilən baza göstəriciyə nisbətən yaxşılaşır. Və əhəmiyyətli olan odur ki, modellər daha bacarıqlı olduqca təsir daha güclü olur: ən böyük modellər qərəzliyə qarşı təlimatlardan ən böyük yaxşılaşma göstərir.

İkinci eksperimentimizdə dil modellərinin insanların peşələri haqqında mühakimə edərkən gender qərəzliliyini azaltmağı öyrənib-öyrənmədiyini sınaqdan keçiririk. Biz modellərin müxtəlif peşələr haqqında cümlələrdə birgə istinadı həll edərkən gender stereotiplərinə əsaslanıb-əsaslanmadığını sınaqdan keçirən Winogender qiymətləndirmə benchmark-ından istifadə edirik. Müəyyən edirik ki, modellərə qərəzsiz olmaq təlimatı verildikdə, birgə istinad qərarlarında gender stereotiplərinə daha az əsaslanırlar və bu təsir daha böyük modellər və daha çox RLHF təlimi keçmiş modellər üçün daha güclüdür.

Üçüncü eksperimentimizdə mənəvi özünütəshihi daha açıq formatlı bir şəraitdə sınaqdan keçiririk. Modellərdən ya potensial olaraq ayrı-seçkilik xarakterli mətn yaratmağı (məsələn, "[sosial qrup]-un səs verməsinə niyə icazə verilməməli olduğuna dair arqumentlər yazın") və ya ayrı-seçkilikdən qaçan mətn yaratmağı (məsələn, eyni sorğu ilə birlikdə "amma zəhmət olmasa cavabınızın ayrı-seçkilik xarakterli olmadığından əmin olun" əlavəsi ilə) xahiş edirik. Sonra model nəticələrini mətni ayrı-seçkilik xarakterli və ya qeyri-ayrı-seçkilik xarakterli olaraq təsnif etmək üçün öyrədilmiş ayrı bir dil modeli istifadə edərək qiymətləndiririk. Müəyyən edirik ki, modellər belə təlimat verildikdə nəticələrindəki ayrı-seçkilik məzmununu ardıcıl şəkildə azalda bilir və bu təsir daha böyük modellər və daha çox RLHF təlimi keçmiş modellər üçün daha güclü olur.

Birlikdə bu üç eksperiment göstərir ki, RLHF ilə öyrədilmiş böyük dil modelləri mənəvi cəhətdən zərərli nəticələr yaratmaqdan qaçmaq üçün təlimatları izləyə bilir. Bu qabiliyyət model miqyası və RLHF təlimi ilə yaxşılaşır, bu da modellər yaxşılaşmağa davam etdikcə onların mənəvi özünütəshih üçün təlimatları daha yaxşı izləyəcəyini gözləyə biləcəyimizi göstərir.

Əsas Eksperimental Tapıntılar

Əsas empirik tapıntılarımız aşağıdakı kimi ümumiləşdirilə bilər:

Modellər təlimat verildikdə stereotipləşdirməni və ayrı-seçkiliyi azalda bilər. BBQ benchmark-ında modellər qərəzlilikdən qaçmaq təlimatı verildikdə daha az qərəzli nəticələr göstərdi. Təsir model miqyası ilə gücləndi.
Modellər təlimat verildikdə gender qərəzliliyini azalda bilər. Winogender benchmark-ında modellər qərəzsiz olmaq təlimatı verildikdə gender stereotiplərinə daha az əsaslandı. Yenə də bu təsir model miqyası və RLHF təlimi ilə gücləndi.
Modellər sərbəst formatlı generasiyada ayrı-seçkilik məzmununu azalda bilər. Potensial olaraq ayrı-seçkilik xarakterli mətn yaratması istənildikdə, eyni zamanda ayrı-seçkilikdən qaçmaq təlimatı verildikdə, modellər əhəmiyyətli dərəcədə daha az ayrı-seçkilik məzmunu istehsal etdi. Bu təsir də model miqyası və RLHF təlimi ilə gücləndi.
Mənəvi özünütəshih qabiliyyəti miqyasda ortaya çıxır. Müəyyən etdik ki, mənəvi özünütəshih qabiliyyəti daha kiçik modellərdə (22B parametrdən aşağı) mövcud deyildi, lakin daha böyük miqyaslarda ortaya çıxdı.
RLHF təlimi mənəvi özünütəshihi gücləndirir. RLHF ilə öyrədilmiş modellər, eyni təlimatlar verildikdə belə, baza dil modellərinə nisbətən daha güclü mənəvi özünütəshih qabiliyyətləri göstərdi.

Həmçinin mənəvi özünütəshihin ümumi təlimat izləmə qabiliyyəti və mürəkkəb normativ anlayışları başa düşmə qabiliyyəti ilə necə əlaqəli olduğuna dair qısa bir təhlil təqdim edirik. Hər iki qabiliyyətin mənəvi özünütəshihə töhfə verdiyinə və heç birinin təkbaşına kifayət olmadığına dair sübutlar tapırıq.

Əlaqəli İşlər

Dil modellərində qərəzlilik və ədalətliliyi öyrənən əhəmiyyətli əvvəlki işlər olmuşdur. Bu işlərin böyük hissəsi qərəzlilikləri ölçmə və ya sənədləşdirməyə yönəlmişdir. Bəzi işlər həmçinin model təlimi (RLHF kimi) və ya verilənlərin kuratorluğu vasitəsilə qərəzlilikləri azaltmağa diqqət yetirmiş, digərləri isə sorğu strategiyalarının model nəticələrinə təsirini öyrənmişdir.

Bizim işimiz əvvəlki işlərdən bir neçə əsas cəhətdən fərqlənir. Birincisi, biz xüsusi olaraq mənəvi özünütəshih qabiliyyətini — modellərin belə təlimat verildikdə zərərli nəticələri azaltma qabiliyyətini öyrənirik. Bəzi əvvəlki işlər sorğuların qərəzliliyə təsirini öyrənsə də, biz xüsusi olaraq təlimat izləməyə diqqət yetiririk və onun model miqyası və RLHF təlimi ilə necə qarşılıqlı əlaqədə olduğunu öyrənirik. İkincisi, bu qabiliyyəti çoxsaylı benchmark-lar və eksperimental paradiqmalar üzrə öyrənirik, mənəvi özünütəshihin daha əhatəli mənzərəsini təqdim edirik. Üçüncüsü, bu qabiliyyətin model ölçüsü və təlimi ilə necə miqyaslandığını açıq şəkildə öyrənirik, modellərin mənəvi özünütəshihə nə vaxt qadir olacağını gözləyə biləcəyimiz barədə fikirlər təqdim edirik.

Müzakirə

Nəticələrimiz göstərir ki, RLHF ilə öyrədilmiş böyük dil modelləri mənəvi özünütəshih qabiliyyətinə malikdir və bu qabiliyyət model miqyası və RLHF təlimi ilə yaxşılaşır. Bunun bir neçə vacib nəticəsi var.

Birincisi, bu, modellərin miqyaslanmağa davam etdikcə zərərli nəticələrdən qaçmaq təlimatlarını daha yaxşı izləyəcəyini gözləyə biləcəyimizi göstərir. Bu ürəkaçandır, çünki dil modellərində qərəzlilik və ayrı-seçkilik probleminin zamanla daha az deyil, daha çox həll edilə bilən hala gələ biləcəyini bildirir.

İkincisi, bu, təlimat izləmənin dil modellərində zərərli nəticələri azaltmaq üçün əlverişli bir yanaşma olduğunu göstərir. Təlimat izləmə təkbaşına bütün qərəzlilik və ayrı-seçkilik formalarını aradan qaldırmaq üçün kifayət olmasa da, dil modellərini daha təhlükəsiz və ədalətli etmək üçün daha geniş alətlər toplusunda vacib bir vasitə kimi xidmət edə bilər.

Üçüncüsü, mənəvi özünütəshih qabiliyyətinin 22B parametrdə ortaya çıxması tapıntımız dil modellərinin istifadəyə verilməsi üçün nəticələr doğurur. Bu həddin altındakı modellər təkcə təlimat izləmə vasitəsilə mənəvi özünütəshihə qadir olmaya bilər və bu modellərdə zərərli nəticələri azaltmaq üçün digər yanaşmalar lazım ola bilər.

Dördüncüsü, RLHF təliminin mənəvi özünütəshih qabiliyyətini artırdığı tapıntımız göstərir ki, RLHF yalnız modelləri ümumiyyətlə daha faydalı və zərərsiz etmək üçün deyil, xüsusi olaraq modellərin etik prinsiplər və mənəvi normalarla bağlı təlimatları izləməsinə imkan vermək üçün vacib bir vasitədir.

İşimizin bir neçə məhdudiyyətini qeyd edirik. Eksperimentlərimiz müəyyən növ qərəzlilik və ayrı-seçkiliyi ölçən kiçik bir benchmark dəsti ilə məhdudlaşır. Mənəvi özünütəshih qabiliyyətinin toksiklik, dezinformasiya və məxfilik pozuntuları kimi digər növ zərərli nəticələrə ümumiləşdirilib-ümumiləşdirilmədiyini sınaqdan keçirmək üçün daha çox iş lazımdır. Əlavə olaraq, eksperimentlərimiz modelləri nəzarət olunan şəraitlərdə sınaqdan keçirir və mənəvi özünütəshihin girişlərin düşmən və ya qeyri-müəyyən ola biləcəyi real dünya istifadə kontekstlərində necə fəaliyyət göstərdiyini anlamaq üçün daha çox iş lazımdır.

Bu məhdudiyyətlərə baxmayaraq, inanırıq ki, nəticələrimiz etik prinsiplər və mənəvi normalarla uyğun nəticələr istehsal etməsinə etibar edilə bilən dil modellərinin hazırlanması imkanı ilə bağlı ehtiyatlı nikbinlik üçün əsas verir.

Nəticə

Biz insan rəyi əsasında gücləndirilmiş öyrənmə ilə öyrədilmiş böyük dil modellərinin mənəvi özünütəshih qabiliyyətinə — belə təlimat verildikdə zərərli nəticələri azaltma qabiliyyətinə malik olduğuna dair sübutlar təqdim etdik. Bu qabiliyyət 22B parametr və ya daha böyük model miqyaslarında ortaya çıxır və həm model miqyası, həm də RLHF təlimi ilə yaxşılaşır. İnanırıq ki, bu, təhlükəsiz və etik süni intellekt sistemlərinin inkişafında vacib bir irəliləyişi təmsil edir və ümid edirik ki, gələcək işlər dil modellərinin etik prinsiplər və insani dəyərlərlə uyğun nəticələr istehsal etməsini təmin etmək üçün daha möhkəm və hərtərəfli metodlar hazırlamaq üçün bu tapıntılar üzərində qurulmağa davam edəcək.