Gerai žinomas dirbtinio bendrojo intelekto (AGI) testas yra arčiau išspręstas. Tačiau testų kūrėjai teigia, kad tai rodo bandymo dizaino trūkumus, o ne sąžiningą mokslinių tyrimų proveržį.
2019 m. Francois Chollet, pagrindinis dirbtinio intelekto pasaulio veikėjas, pristatė ARC-AGI etaloną, sutrumpintą „Abstract and Reasoning Corpus for Artificial General Intelligence“. ARC-AGI, sukurta siekiant įvertinti, ar dirbtinio intelekto sistema gali efektyviai įgyti naujų įgūdžių be duomenų, kuriais ji buvo išmokyta, ARC-AGI, teigia Francois, tebėra vienintelis AI testas, skirtas įvertinti pažangą siekiant bendro intelekto (nors buvo pasiūlyta ir kitų).
Iki šių metų geriausiai veikiantis AI galėjo išspręsti tik mažiau nei trečdalį ARC-AGI užduočių. Chollet apkaltino pramonės dėmesį dideliems kalbų modeliams (LLM), kurie, jo manymu, negali iš tikrųjų „pagrįsti“.
„LLM kovoja su apibendrinimu, nes yra visiškai priklausomas nuo įsiminimo“, – sakė jis vasario mėn. „Jie sugenda dėl visko, kas nebuvo įtraukta į jų treniruočių duomenis.
Chollet nuomone, LLM yra statistikos mašinos. Išmokę remtis daugybe pavyzdžių, jie išmoksta tuose pavyzdžiuose pateiktų modelių, kad galėtų nuspėti, pavyzdžiui, „kam“ el. laiške paprastai nurodoma „tai gali būti aktualu“.
Chollet tvirtina, kad nors LLM gali įsiminti „samprotavimo modelius“, mažai tikėtina, kad jie gali sukurti „naują samprotavimą“, pagrįstą naujomis situacijomis. „Jei jums reikia išmokti naudoti daugybę modelio pavyzdžių, net jei jis yra numanomas, kad išmoktumėte daugkartinio naudojimo atvaizdą, jūs mokate atmintinai“, – kitame pranešime teigė Chollet.
Siekdamas paskatinti mokslinius tyrimus ne tik LLM, birželį Chollet ir Zapier įkūrėjas Mike'as Knoopas paskelbė 1 milijono dolerių konkursą, skirtą sukurti atvirojo kodo AI, galintį įveikti ARC-AGI. Iš 17 789 paraiškų geriausias surinko 55,5 % – apie 20 % daugiau nei 2023 m. rezultatyviausias žaidėjas, nors ir nesiekia 85 %, „žmogaus lygio“ slenksčio, reikalingo laimėti.
Tačiau tai nereiškia, kad esame apie 20% arčiau AGI, sako Knoop.
Šiandien skelbiame 2024 m. ARC prizo laimėtojus. Taip pat skelbiame išsamią techninę ataskaitą apie tai, ko išmokome iš konkurso (nuoroda kitame tviteryje).
Šiuolaikinės technologijos pakilo nuo 33% iki 55,5%, tai yra didžiausias vienerių metų padidėjimas nuo 2020 m.
– François Chollet (@fchollet) 2024 m. gruodžio 6 d
Tinklaraščio įraše Knoop teigė, kad daugelis ARC-AGI pateiktų pasiūlymų galėjo „žalia jėga“ pasiekti sprendimą, o tai rodo, kad „didelė dalis“ ARC-AGI užduočių „(ne) turi daug. naudingas signalas bendrajai žvalgybai.
ARC-AGI susideda iš į galvosūkį panašių užduočių, kai AI turi sugeneruoti teisingą „atsakymų“ tinklelį, atsižvelgiant į skirtingų spalvų kvadratų tinklelį. Problemos buvo sukurtos siekiant priversti AI prisitaikyti prie naujų problemų, kurių anksčiau nematė. Tačiau neaišku, ar jiems tai pavyksta.
„(ARC-AGI) nesikeitė nuo 2019 m. ir nėra tobulas“, – savo pranešime pripažino Knoopas.
Francois ir Knoop taip pat sulaukė kritikos dėl ARC-AGI perpardavimo kaip AGI etalono – tuo metu, kai pats AGI apibrėžimas yra karštai ginčijamas. Vienas OpenAI darbuotojas neseniai teigė, kad AGI „jau“ pasiektas, jei AGI apibrėžiama kaip AI „geresnis už daugelį žmonių atliekant daugumą užduočių“.
Knoop ir Chollet teigia, kad kartu su 2025 m. konkursu planuoja išleisti antros kartos ARC-AGI etaloną, skirtą šioms problemoms spręsti. „Mes ir toliau nukreipsime mokslininkų bendruomenės pastangas į tai, kas, mūsų manymu, yra svarbiausios neišspręstos AI problemos, ir paspartinsime AGI laiko juostą“, – X įraše rašė Chollet.
Pataisymai greičiausiai nebus lengvi. Jei pirmojo ARC-AGI testo trūkumai rodo bet kokius požymius, intelekto nustatymas dirbtinio intelekto atveju bus toks pat sudėtingas ir uždeginantis, kaip ir žmonėms.