AI-yə davamlı texniki qiymətləndirmələrin dizaynı

Anthropic-in performans optimallaşdırma komandasının lideri Tristan Hume tərəfindən yazılıb. Tristan, Anthropic-ə onlarla performans mühəndisi işə götürməyə kömək edən ev tapşırığı testini dizayn edib — və yenidən dizayn edib.

Texniki namizədlərin qiymətləndirilməsi AI imkanları artdıqca çətinləşir. Bu gün insan bacarıq səviyyələrini yaxşı fərqləndirən ev tapşırığı sabah modellər tərəfindən asanlıqla həll oluna bilər — bu da onu qiymətləndirmə üçün yararsız edir.

2024-cü ilin əvvəlindən performans mühəndisliyi komandamız namizədlərin simulyasiya edilmiş akselerator üçün kodu optimallaşdırdığı ev tapşırığı testindən istifadə edir. 1000-dən çox namizəd bunu tamamlayıb və onlarla nəfər indi burada işləyir, o cümlədən Trainium klasterimizi işə salan və Claude 3 Opus-dan bəri hər modeli buraxan mühəndislər.

Lakin hər yeni Claude modeli bizi testi yenidən dizayn etməyə məcbur edib. Eyni vaxt limiti verildikdə, Claude Opus 4 əksər insan müraciətçilərdən daha yaxşı nəticə göstərdi. Bu, hələ də ən güclü namizədləri fərqləndirməyə imkan verirdi — amma sonra Claude Opus 4.5 hətta onlara da çatdı. İnsanlar limitsiz vaxt verildikdə hələ də modellərdən üstün ola bilir, lakin ev tapşırığı testinin məhdudiyyətləri daxilində ən yaxşı namizədlərimizin nəticəsi ilə ən güclü modelimizin nəticəsi arasında fərq qoymağın yolu artıq yox idi.

Testdə hələ də siqnal olmasını təmin etmək üçün ev tapşırığımızın üç versiyasını keçdim. Hər dəfə qiymətləndirmələri AI köməyinə davamlı edən və etməyən şeylər haqqında yeni bir şey öyrəndim.

Bu yazıda orijinal ev tapşırığının dizaynı, hər Claude modelinin onu necə məğlub etdiyi və testimizin ən yaxşı modelimizin imkanlarından irəlidə qalmasını təmin etmək üçün məcbur olduğum getdikcə qeyri-adi yanaşmalar təsvir edilir. Gördüyümüz iş modellərimizlə birlikdə inkişaf etsə də, hələ də daha çox güclü mühəndislərə ehtiyacımız var — sadəcə onları tapmağın getdikcə daha yaradıcı yollarına ehtiyacımız var.

Bu məqsədlə, orijinal ev tapşırığını açıq çağırış kimi buraxırıq, çünki limitsiz vaxtla ən yaxşı insan performansı hələ də Claude-un əldə edə bildiyini üstələyir. Əgər Opus 4.5-i məğlub edə bilsəniz, sizdən eşitmək istərdik — təfərrüatlar bu yazının sonundadır.

Ev tapşırığının yaranması

2023-cü ilin noyabrında biz Claude Opus 3-ü öyrətməyə və buraxmağa hazırlaşırdıq. Yeni TPU və GPU klasterləri əldə etmişdik, böyük Trainium klasterimiz gəlirdi və akseleratorlara əvvəlkindən xeyli çox xərcləyirdik, lakin yeni miqyasımız üçün kifayət qədər performans mühəndisimiz yox idi. Twitter-də yazı paylaşdım insanlardan bizə e-poçt göndərmələrini xahiş etdim, bu da standart müsahibə xəttimiz vasitəsilə qiymətləndirə biləcəyimizdən daha çox perspektivli namizəd gətirdi — bu proses həm heyət, həm də namizədlər üçün əhəmiyyətli vaxt tələb edirdi.

Namizədləri daha səmərəli qiymətləndirmə yoluna ehtiyacımız var idi. Ona görə də rolun tələblərini adekvat şəkildə əks etdirə biləcək və ən bacarıqlı müraciətçiləri müəyyən edəcək ev tapşırığı testi dizayn etmək üçün iki həftə ayırdım.

Dizayn məqsədləri

Ev tapşırıqlarının pis reputasiyası var. Adətən mühəndislərin darıxdıcı hesab etdiyi ümumi problemlərlə dolu olur və zəif filtrlər yaradır. Mənim məqsədim fərqli idi: namizədləri iştirak etməyə həvəsləndirəcək həqiqətən maraqlı bir şey yaratmaq və onların texniki bacarıqlarını yüksək dəqiqliklə ölçmək.

Format həmçinin performans mühəndisliyi bacarıqlarının qiymətləndirilməsində canlı müsahibələr üzərində üstünlüklər təklif edir:

Daha uzun vaxt üfüqü: Mühəndislər kod yazarkən nadir hallarda bir saatdan az müddətli son tarixlərlə üzləşirlər. 4 saatlıq pəncərə (sonradan 2 saata endirildi) işin həqiqi mahiyyətini daha yaxşı əks etdirir. Əksər real tapşırıqlardan hələ də qısadır, lakin bunu ağırlıq dərəcəsi ilə tarazlaşdırmalıyıq.

Real mühit: Heç kim izləmir və ya danışıq gözləmir. Namizədlər öz redaktorlarında diqqəti yayınmadan işləyirlər.

Anlama və alət qurma üçün vaxt: Performans optimallaşdırması mövcud sistemləri anlamağı və bəzən debug alətləri qurmağı tələb edir. Hər ikisini standart 50 dəqiqəlik müsahibədə real şəkildə qiymətləndirmək çətindir.

AI köməyi ilə uyğunluq: Anthropic-in ümumi namizəd təlimatı namizədlərdən başqa cür göstərilmədikcə ev tapşırıqlarını AI olmadan tamamlamağı xahiş edir. Bu ev tapşırığı üçün biz açıq şəkildə başqa cür göstəririk.

Daha uzun müddətli problemləri AI-nin tam həll etməsi daha çətindir, ona görə də namizədlər AI alətlərindən istifadə edə bilərlər (işdə edəcəkləri kimi), eyni zamanda öz bacarıqlarını nümayiş etdirmələri tələb olunur.

Bu formata xas məqsədlərdən əlavə, ev tapşırığını hazırlayarkən istənilən müsahibə dizayn edərkən istifadə etdiyim eyni prinsipləri tətbiq etdim:

Real işi əks etdirir: Problem namizədlərə işin əslində nəyi əhatə etdiyini dadmağa imkan verməlidir.

Yüksək siqnal: Ev tapşırığı tək bir anlayışdan asılı olan problemlərdən qaçınmalı və namizədlərin tam bacarıqlarını göstərmək üçün çoxlu imkan yaratmalıdır — şansa mümkün qədər az yer buraxaraq. Həmçinin geniş bal paylanmasına sahib olmalı və güclü namizədlərin belə hər şeyi bitirə bilməyəcəyi qədər dərinlik təmin etməlidir.

Xüsusi sahə biliyinə ehtiyac yoxdur: Yaxşı əsaslara sahib insanlar spesifik şeyləri işdə öyrənə bilərlər. Dar ekspertiza tələb etmək namizəd hovuzunu lazımsız şəkildə məhdudlaşdırır.

Əyləncəli: Sürətli inkişaf dövrləri, dərinliyi olan maraqlı problemlər və yaradıcılıq üçün yer.

Simulyasiya edilmiş maşın

TPU-lara bənzər xüsusiyyətlərə malik saxta akselerator üçün Python simulyatoru qurdum. Namizədlər bu maşında işləyən kodu optimallaşdırır, hər instruksiyanı göstərən hot-reloading Perfetto trace-dən istifadə edirlər, Trainium-da sahib olduğumuz alətlərə bənzər.

Maşın akselerator optimallaşdırmasını maraqlı edən xüsusiyyətlər daxil edir: əl ilə idarə olunan scratchpad yaddaş (CPU-lardan fərqli olaraq, akseleratorlar tez-tez açıq yaddaş idarəetməsi tələb edir), VLIW (hər dövrdə paralel işləyən çoxsaylı icra vahidləri, səmərəli instruksiya paketlənməsi tələb edir), SIMD (hər instruksiya üçün çoxlu elementlər üzərində vektor əməliyyatları) və multicore (işin nüvələr arasında paylanması).

Tapşırıq paralel ağac keçididir, qəsdən dərin öyrənmə yönümlü deyil, çünki əksər performans mühəndisləri hələ dərin öyrənmə üzərində işləməmişdi və sahəyə xas detalları işdə öyrənə bilərdilər. Problem, keçmişə bir istinad olaraq klassik ML optimallaşdırma çağırışı olan branchless SIMD qərar ağacı çıxarışından ilhamlanıb, bununla yalnız bir neçə namizəd əvvəllər qarşılaşmışdı.

Namizədlər tam ardıcıl tətbiqlə başlayır və maşının paralelizmini tədricən istifadə edirlər. İsinmə hissəsi multicore paralelizmdir, sonra namizədlər SIMD vektorlaşdırma və ya VLIW instruksiya paketlənməsi ilə məşğul olmaq arasında seçim edirlər. Orijinal versiya həmçinin namizədlərin əvvəlcə debug etməli olduğu bir bug daxil edirdi, bu da onların alət qurma bacarığını yoxlayırdı.

İlk nəticələr

İlkin ev tapşırığı yaxşı işlədi. Twitter partiyasından bir nəfər hamıdan əhəmiyyətli dərəcədə yüksək bal topladı. O, standart xətt vasitəsilə ilk işə götürmələrimizdən iki həftə sonra, fevralın əvvəlində işə başladı. Test proqnozlaşdırıcı olduğunu sübut etdi: O dərhal kernelləri optimallaşdırmağa başladı və tensor indeksləmə riyaziyyatının 32 bitdən daşmasını əhatə edən buraxılışı bloklayen kompilyator xətası üçün həll yolu tapdı.

Növbəti bir il yarım ərzində təxminən 1000 namizəd ev tapşırığını tamamladı və bu, hazırkı performans mühəndisliyi komandamızın əksəriyyətini işə götürməyimizə kömək etdi. Kağız üzərində məhdud təcrübəsi olan namizədlər üçün xüsusilə dəyərli oldu: ən yüksək performans göstərən mühəndislərimizdən bir neçəsi birbaşa bakalavr pilləsindən gəldi, lakin ev tapşırığında kifayət qədər bacarıq nümayiş etdirdi ki, onları əminliklə işə götürə bildik.

Rəylər müsbət idi. Çox namizədlər əyləndiyi üçün 4 saatlıq limitdən sonra da işləməyə davam etdilər. Limitsiz vaxtla ən güclü təqdimatlar tam optimallaşdırıcı mini-kompilyatorlar və mənim gözləmədiyim bir neçə ağıllı optimallaşdırma daxil edirdi.

Sonra Claude Opus 4 onu məğlub etdi

2025-ci ilin mayına qədər, Claude 3.7 Sonnet artıq namizədlərin 50%-dən çoxunun tapşırığı tamamilə Claude Code-a həvalə etməsinin daha yaxşı olacağı nöqtəyə yüksəlmişdi. Sonra ev tapşırığında Claude Opus 4-ün buraxılışdan əvvəlki versiyasını sınaqdan keçirdim. 4 saatlıq limit daxilində demək olar ki, bütün insanlardan daha optimallaşdırılmış həll tapdı.

Bu, Claude modeli tərəfindən məğlub edilən ilk müsahibəm deyildi. 2023-cü ildə xüsusi olaraq canlı müsahibə sualı dizayn etmişdim, çünki o vaxt suallarımız erkən Claude modellərinin çox bilik sahibi olduğu ümumi tapşırıqlara əsaslanırdı və asanlıqla həll edə bilirdilər. Bilikdən daha çox problem həll etmə bacarığı tələb edən, hələ də işdə həll etdiyim real (lakin niş) problemə əsaslanan bir sual dizayn etməyə çalışdım. Claude 3 Opus həmin sualın 1-ci hissəsini məğlub etdi; Claude 3.5 Sonnet 2-ci hissəni məğlub etdi. Hələ də istifadə edirik, çünki digər canlı suallarımız da AI-yə davamlı deyil.

Ev tapşırığı üçün sadə bir həll var idi. Problemin heç kimin 4 saatda araşdıra bilməyəcəyi qədər dərinliyi var idi, ona görə də Claude Opus 4-ün harada çətinlik çəkməyə başladığını müəyyən etmək üçün istifadə etdim. O, versiya 2 üçün yeni başlanğıc nöqtəsi oldu. Daha təmiz başlanğıc kodu yazdım, daha çox dərinlik üçün yeni maşın xüsusiyyətləri əlavə etdim və multicore-u çıxardım (Claude artıq onu həll etmişdi və o, siqnal əlavə etmədən yalnız inkişaf dövrlərini yavaşladırdı).

Həmçinin vaxt limitini 4 saatdan 2 saata qısaltdım. Əvvəlcə 4 saatı namizədlərin rəyi əsasında seçmişdim, onlar bug və ya çaşqınlıqda bir müddət ilişib qalma riskinin az olmasını üstün tuturdular, lakin planlaşdırma yükü xəttimizə çoxhəftəlik gecikmələrə səbəb olurdu. İki saat həftə sonuna sığdırmaq daha asandır.

Versiya 2 debug və kod həcmindən çox ağıllı optimallaşdırma anlayışlarına vurğu edirdi. Bir neçə ay bizə yaxşı xidmət etdi.

Sonra Claude Opus 4.5 onu da məğlub etdi

Buraxılışdan əvvəlki Claude Opus 4.5 checkpoint-unu test etdikdə, Claude Code-un 2 saat ərzində problem üzərində işləyərək həllini tədricən yaxşılaşdırmasını izlədim. İlkin darboğazları həll etdi, bütün ümumi mikro-optimallaşdırmaları tətbiq etdi və bir saatdan az müddətdə keçid həddimizdən keçdi.

Sonra dayandı, aşılmaz yaddaş ötürmə qabiliyyəti darboğazına çatdığına əmin oldu. Əksər insanlar eyni nəticəyə gəlirlər. Lakin problemin strukturundan istifadə edərək bu darboğazı aşan ağıllı hiylələr var. Claude-a mümkün olan dövr sayını söylədikdə, bir müddət düşündü və hiylni tapdı. Sonra debug etdi, tənzimlədi və əlavə optimallaşdırmalar tətbiq etdi. 2 saatın sonunda balı həmin vaxt limitində ən yaxşı insan performansına bərabər idi — və o insan Claude 4-dən yönləndirmə ilə intensiv istifadə etmişdi.

Bunu daxili test-time compute harness-imizdə daha ciddi şəkildə sınadıq və onun həm 2 saatda insanları məğlub edə bildiyini, həm də vaxtla yüksəlməyə davam etdiyini təsdiqladik. Buraxılışdan sonra hətta harness-imizi ümumi şəkildə təkmilləşdirdik və daha yüksək bal əldə etdik.

Problemim var idi. Ev tapşırığımızda ən yaxşı strategiyanın Claude Code-a həvalə etmək olacağı bir model buraxmaq üzrə idik.

Seçimlərin nəzərdən keçirilməsi

Bəzi həmkarlarım AI köməyini qadağan etməyi təklif etdilər. Bunu etmək istəmirdim. Tətbiq çətinliklərindən əlavə, insanların işimizdə hələ də həyati rol oynamağa davam etdiyi nəzərə alınanda, AI ilə — işdə olacaqları kimi — bir şəraitdə özlərini fərqləndirə biləcəkləri hansısa yol tapa bilməli idim. İnsanların yalnız bir neçə saatdan uzun tapşırıqlarda üstünlüyə sahib olduğu fikrinə hələ təslim olmaq istəmirdim.

Başqaları həddi "Claude Code-un təkbaşına əldə etdiyindən əhəmiyyətli dərəcədə üstün ol" səviyyəsinə qaldırmağı təklif etdilər. Burada narahatlıq Claude-un sürətli işləməsi idi. İnsanlar adətən 2 saatın yarısını problemi oxumaq və anlamaqla keçirirlər, optimallaşdırmağa başlamazdan əvvəl. Claude-u yönləndirməyə çalışan insan çox güman ki, daima geri qalacaqdı, Claude-un nə etdiyini yalnız sonradan anlayacaqdı. Dominant strategiya geri oturub izləmək ola bilərdi.

Hal-hazırda Anthropic-dəki performans mühəndislərinin hələ də çox işi var, lakin bu daha çox çətin debug, sistem dizaynı, performans analizi, sistemlərimizin düzgünlüyünü necə yoxlayacağımızı anlamaq və Claude-un kodunu daha sadə və zərif etməyin yollarını tapmaq kimi görünür. Təəssüf ki, bunları çox vaxt və ya ortaq kontekst olmadan obyektiv şəkildə test etmək çətindir. İşi əks etdirən müsahibələr dizayn etmək həmişə çətin olub, lakin indi həmişəkindən daha çətindir.

Lakin həm də narahat idim ki, yeni ev tapşırığı dizayn etməyə sərmayə qoysam, ya Claude Opus 4.5 onu da həll edəcəkdi, ya da o qədər çətin olacaqdı ki, insanların iki saatda tamamlaması mümkünsüz olacaqdı.

Cəhd 1: Fərqli optimallaşdırma problemi

Başa düşdüm ki, Claude nə dizayn etsəm onu tez tətbiq etməyimə kömək edə bilər, bu da məni daha çətin ev tapşırığı hazırlamağa cəhd etməyə motivasiya etdi. Anthropic-də etdiyim daha çətin kernel optimallaşdırmalarından birinə — bank conflicts-dən qaçaraq 2D TPU registrlərində səmərəli data transposition-a əsaslanan bir problem seçdim. Onu simulyasiya edilmiş maşında daha sadə problemə çevirdim və Claude-un dəyişiklikləri bir gündən az müddətdə tətbiq etməsini təmin etdim.

Claude Opus 4.5 hətta ağlıma gəlməyən əla bir optimallaşdırma tapdı. Diqqətli analiz vasitəsilə, datanı necə çevirmək əvəzinə bütün hesablamanı çevirə biləcəyini anladı və bütün proqramı buna uyğun yenidən yazdı.

Mənim real halımda bu işləməzdi, ona görə problemi həmin yanaşmanı aradan qaldırmaq üçün yamadım. Claude sonra irəliləyiş əldə etdi, lakin ən səmərəli həlli tapa bilmədi. Deyəsən, yeni problemimi tapmışdım, indi sadəcə insan namizədlərin onu kifayət qədər tez həll edə biləcəyinə ümid etməli idim. Lakin bir qədər şübhəm var idi, ona görə Claude Code-un daha uzun düşünmə büdcələri ilə "ultrathink" funksiyasından istifadə edərək yenidən yoxladım... və o, həll etdi. Hətta bank conflicts-i düzəltmək üçün hiylələri də bilirdi.

Geriyə baxanda, bu sınamaq üçün düzgün problem deyildi. Bir çox platformada mühəndislər data transposition və bank conflicts ilə mübarizə apardıqları üçün Claude-un istifadə edə biləcəyi əhəmiyyətli təlim datası var idi. Mən həllimi sıfırdan prinsiplərdən tapmışdım, lakin Claude daha böyük təcrübə alətlər dəstindən faydalana bilirdi.

Cəhd 2: Daha qeyri-adi olmaq

Claude-un daha geniş təcrübə bazası üzərindən insan düşüncəsinin qalib gələ biləcəyi bir problemə ehtiyacım var idi: paylanmadan kifayət qədər kənar bir şey. Təəssüf ki, bu, işə bənzər olma məqsədimlə ziddiyyət təşkil edirdi.

Ən çox xoşuma gələn ən qeyri-adi optimallaşdırma problemlərini düşündüm və Zachtronics oyunları-na gəldim. Bu proqramlaşdırma tapmaca oyunları sizi qeyri-adi üsullarla proqramlaşdırmağa məcbur edən qeyri-adi, yüksək dərəcədə məhdud instruksiya dəstlərindən istifadə edir. Məsələn, Shenzhen I/O-da proqramlar hər biri yalnız təxminən 10 instruksiya və bir-iki vəziyyət registri saxlayan çoxlu ünsiyyət quran çiplər arasında bölünür. Ağıllı optimallaşdırma tez-tez vəziyyəti instruksiya göstəricisi və ya branch flag-lərə kodlamağı əhatə edir.

Kiçik, güclü şəkildə məhdudlaşdırılmış instruksiya dəsti ilə tapmacalardan ibarət yeni ev tapşırığı dizayn etdim, həlləri minimal instruksiya sayı üçün optimallaşdıraraq. Bir orta-çətin tapmaca tətbiq etdim və Claude Opus 4.5 üzərində sınaqdan keçirdim. Uğursuz oldu. Daha çox tapmaca əlavə etdim və problemə məndən daha az dalmış həmkarların hələ də Claude-dan üstün ola biləcəyini yoxladım.

Zachtronics oyunlarından fərqli olaraq, qəsdən heç bir vizuallaşdırma və ya debug aləti təqdim etmədim. Başlanğıc kodu yalnız həllərin etibarlı olub-olmadığını yoxlayır. Debug alətləri qurmaq test edilənin bir hissəsidir: ya diqqətlə hazırlanmış print ifadələri əlavə edə bilərsiniz, ya da bir neçə dəqiqə ərzində kodlaşdırma modelindən interaktiv debugger yaratmasını istəyə bilərsiniz. Alətlərə necə sərmayə qoymaq barədə mühakimə siqnalın bir hissəsidir.

Yeni ev tapşırığından nisbətən razıyam. Orijinaldan daha az variasiyaya sahib ola bilər, çünki daha çox müstəqil alt-problemdən ibarətdir. İlk nəticələr ümidvericidir: ballar namizədlərin keçmiş işlərinin keyfiyyəti ilə yaxşı korrelyasiya edir və ən bacarıqlı həmkarlarımdan biri indiyə qədər hər hansı bir namizəddən yüksək bal topladı.

Orijinalın realizmi və müxtəlif dərinliyindən vaz keçdiyimə hələ də kədərlənirəm. Lakin realizm artıq sahib ola bilmədiyimiz bir lüks ola bilər. Orijinal real işə bənzədiyi üçün işləyirdi. Əvəzedici yeni iş simulyasiya etdiyi üçün işləyir.

Açıq çağırış

Hər kəsin limitsiz vaxtla sınaması üçün orijinal ev tapşırığını buraxırıq. İnsan ekspertləri kifayət qədər uzun vaxt üfüqlərində mövcud modellərdən üstünlüyü qoruyur. İndiyə qədər təqdim edilmiş ən sürətli insan həlli, Claude-un hətta geniş test-time compute ilə əldə etdiyini əhəmiyyətli dərəcədə üstələyir.

Buraxılan versiya sıfırdan başlayır (versiya 1 kimi) lakin versiya 2-nin instruksiya dəsti və tək nüvəli dizaynından istifadə edir, beləliklə dövr sayları versiya 2 ilə müqayisə olunandır.

Performans göstəriciləri (simulyasiya edilmiş maşının saat dövrlərində ölçülür):

2164 dövr: Claude Opus 4, test-time compute harness-ində uzun saatlardan sonra
1790 dövr: Claude Opus 4.5, adi Claude Code sessiyasında, 2 saatda ən yaxşı insan performansına təxminən uyğun
1579 dövr: Claude Opus 4.5, test-time compute harness-imizdə 2 saatdan sonra
1548 dövr: Claude Sonnet 4.5, 2 saatdan xeyli çox test-time compute-dan sonra
1487 dövr: Claude Opus 4.5, harness-də 11,5 saatdan sonra
1363 dövr: Claude Opus 4.5, təkmilləşdirilmiş test-time compute harness-ində uzun saatlardan sonra

GitHub-dan yükləyin. Əgər 1487 dövrdən aşağı optimallaşdırsanız, buraxılışda Claude-un ən yaxşı performansını məğlub edərək, kodunuz və CV ilə bizə [email protected] ünvanına e-poçt göndərin.

Və ya (indi) Claude-a davamlı ev tapşırığımızdan istifadə edən adi prosesimiz vasitəsilə müraciət edə bilərsiniz. Bunun nə qədər davam edəcəyini maraqla gözləyirik.