Məzmun:
Xülasə
Transformer arxitekturasının riyazi nəzəriyyələri göstərir ki, residual stream-dəki ayrı-ayrı koordinatların heç bir xüsusi əhəmiyyəti olmamalıdır (yəni, bazis istiqamətləri müəyyən mənada "ixtiyari" olmalı və təsadüfi istiqamətlərdən daha çox informasiya kodlaşdırma ehtimalı olmamalıdır). Son araşdırmalar göstərib ki, bu müşahidə praktikada doğru deyil. Biz bu fenomeni araşdırırıq və ilkin nəticə olaraq belə qənaətə gəlirik ki, Adam optimallaşdırıcısındakı hər ölçü üzrə normallaşdırıcılar bu effektin səbəbidir.
Biz Transformer-də bazis asılılığının iki digər aşkar mənbəyini də araşdırırıq: Layer normalization və sonlu dəqiqlikli floating-point hesablamaları. Biz bunların müşahidə edilən bazislə uyğunlaşmanın mənbəyi olmadığını əminliklə istisna edirik.