Superpozisiya, Yaddaşa Yazma və İkiqat Enmə

Xülasə

Bu yaxınlarda nəşr etdiyimiz bir məqalədə biz sadə oyuncaq tapşırıqlar üzərində təlim keçən sadə neyron şəbəkələrinin tez-tez superpozisiya adlanan bir fenomen nümayiş etdirdiyini aşkar etdik - burada şəbəkələr malik olduqları neyronların sayından daha çox xüsusiyyəti təmsil edirlər. Bizim araşdırmamız sonsuz-məlumat, underfitting rejimi ilə məhdudlaşdı. Lakin əgər mexaniki interpretasiya sahəsində uğur qazanmaq istəyiriksə, overfitting-i başa düşməyin vacib ola biləcəyinə və superpozisiyanın bu hekayənin mərkəzi hissəsi ola biləcəyinə inanmaq üçün əsaslar var.

Mexaniki interpretasiya niyə overfitting ilə maraqlanmalıdır? Overfitting maşın öyrənməsində mərkəzi problem olmasına baxmayaraq, dərin öyrənmə modellərinin overfitting nümayiş etdirməsi və ya nümunələri yaddaşa yazması zamanı dəqiq olaraq nə baş verdiyinə dair mexaniki anlayışımız azdır. Bundan əlavə, əvvəlki işlər overfitting ilə şərh edilə bilən xüsusiyyətlərin öyrənilməsi arasında mühüm əlaqənin ola biləcəyinə işarə etmişdir. Beləliklə, overfitting-i başa düşmək vacibdir, lakin bu niyə superpozisiya ilə əlaqəli olmalıdır?

Mətni söz-bə-söz yaddaşa yazan dil modelinin vəziyyətini nəzərdən keçirək. O bunu necə edə bilər? Bir sadəlövh fikir ondan ibarətdir ki, o, ardıcıllıqları özbaşına davamlarla əlaqələndirən lookup cədvəli yaratmaq üçün neyronlardan istifadə edə bilər. Yaddaşa yazmaq istədiyi hər bir token ardıcıllığı üçün o, həmin ardıcıllığı aşkar etmək üçün bir neyron ayıra, sonra isə o işə düşəndə özbaşına davranış tətbiq edə bilər. Bu yanaşmanın problemi ondan ibarətdir ki, bu, son dərəcə qeyri-səmərəlidir – lakin bu, superpozisiya üçün mükəmməl namizəd kimi görünür, çünki hər bir hal qarşılıqlı olaraq müstəsnadir və bir-birinə müdaxilə edə bilməz.

Bu qeyddə biz əvvəlki məqalədə istifadə etdiyimiz eyni oyuncaq modelləri məhdud məlumat dəstləri üzərində təlim etdirməyin çox ilkin araşdırmasını təqdim edirik. Son dərəcə sadə olmasına baxmayaraq, oyuncaq model overfitting üçün təəccüblü dərəcədə zəngin bir halət tədqiqi olduğu ortaya çıxır. Xüsusilə, aşağıdakıları aşkar edirik:

Overfitting xüsusiyyətlərdən fərqli olaraq məlumat nöqtələrinin superpozisiyada saxlanmasına uyğun gəlir.
Məlumat dəsti ölçüsündən asılı olaraq, modellərimiz iki fərqli rejimə düşür: overfitting rejimi (məlumat nöqtələrinin superpozisiyada saxlanması ilə xarakterizə olunur) və ümumiləşdirmə rejimi (xüsusiyyətlərin superpozisiyada saxlanması ilə xarakterizə olunur).
Modelin bu rejimlər arasında keçid etməsi zamanı ikiqat enmə (double descent) müşahidə edirik.