Visi generatyvūs AI modeliai haliucinuoja – nuo Google Gemini iki Anthropic's Claude iki naujausio slapto OpenAI GPT-4o laido. Kitaip tariant, modeliai yra nepatikimi pasakotojai – kartais linksmai, o kartais – problemiškai.
Tačiau ne visi modeliai viską sukuria vienodai. Ir jų išskleidžiamos netiesos priklauso nuo to, su kokiais informacijos šaltiniais jie susidūrė.
Neseniai atliktame Kornelio, Vašingtono ir Vaterlo universitetų bei pelno nesiekiančio tyrimų instituto AI2 tyrime buvo siekiama lyginti haliucinacijas faktų tikrinimo modeliais, tokiais kaip GPT-4o, palyginti su autoritetingais šaltiniais temomis nuo teisės ir sveikatos iki istorijos ir geografijos. Jie išsiaiškino, kad nė vienas modelis neveikė išskirtinai gerai visomis temomis, o mažiausiai haliucinuojantys modeliai taip elgėsi iš dalies dėl to, kad atsisakė atsakyti į klausimus, kuriuos kitu atveju suklystų.
„Svarbiausia mūsų darbo dalis yra ta, kad dar negalime visiškai pasitikėti modelių kartų rezultatais“, – „TechCrunch“ sakė Kornelio doktorantas ir tyrimo bendraautoris Wentingas Zhao. „Šiuo metu net geriausi modeliai gali sukurti tekstą be haliucinacijų tik apie 35% laiko.”
Buvo ir kitų akademinių bandymų tirti modelių „faktūrą“, įskaitant atskirą su AI2 susijusią komandą. Tačiau Zhao pažymi, kad atliekant šiuos ankstesnius testus modeliams buvo užduodami klausimai, kurių atsakymus nesunkiai galima rasti Vikipedijoje – ne pats sunkiausias klausimas, turint omenyje, kad dauguma modelių yra apmokyti pagal Vikipedijos duomenis.
Kad jų etalonas būtų sudėtingesnis ir tiksliau atspindėtų klausimus, kuriuos žmonės užduoda modeliams, mokslininkai nustatė žiniatinklyje esančias temas, nedaryk turėti Vikipedijos nuorodą. Šiek tiek daugiau nei į pusę testo klausimų negalima atsakyti naudojant Vikipediją (jie buvo keletas iš Vikipedijos šaltinių) ir liečia tokias temas kaip kultūra, geografija, astronomija, popkultūra, finansai, medicina, informatika ir įžymybės. .
Savo tyrimui mokslininkai įvertino daugiau nei tuziną skirtingų populiarių modelių, iš kurių daugelis buvo išleisti praėjusiais metais. Be GPT-4o, jie išbandė „atviruosius“ modelius, tokius kaip Meta's Llama 3 70B, Mistral's Mixtral 8x22B ir Cohere's Command R+, taip pat uždarus API modelius, tokius kaip Perplexity's Sonar-Large (kuris pagrįstas Llama), Google. Gemini 1.5 Pro ir Anthropic's Claude 3 Opus.
Rezultatai rodo, kad šiais laikais modeliai haliucinuoja ne mažiau, nepaisant OpenAI, Anthropic ir kitų didelių generuojančių dirbtinio intelekto žaidėjų teiginių.
GPT-4o ir OpenAI daug senesnis flagmanas GPT-3.5 veikė maždaug tiek pat, kiek procentų klausimų jie faktiškai teisingai atsakė etalone. (GPT-4o buvo šiek tiek geresnis.) OpenAI modeliai apskritai buvo mažiausiai haliucinacijų sukeliantys, po to seka Mixtral 8x22B, Command R ir Perplexity Sonar modeliai.
Sunkiausiai modeliams buvo pateikti klausimai, susiję su įžymybėmis ir finansais, tačiau modeliams lengviausia buvo atsakyti į klausimus apie geografiją ir informatiką (galbūt todėl, kad jų mokymo duomenyse buvo daugiau nuorodų į juos). Tais atvejais, kai atsakymo šaltinis nebuvo Vikipedija, kiekvienas modelis vidutiniškai atsakė mažiau faktiškai (bet ypač GPT-3.5 ir GPT-4o), o tai rodo, kad jie visi yra labai informuoti iš Vikipedijos turinio.
Net modeliai, galintys ieškoti informacijos internete, pvz., „Command R“ ir „Perplexity's Sonar“ modeliai, susidūrė su „ne Wiki“ klausimais etalone. Modelio dydis neturėjo didelės reikšmės; mažesni modeliai (pvz., Anthropic's Claude 3 Haiku) haliucinuodavo maždaug taip pat dažnai, kaip ir didesni, tariamai pajėgesni modeliai (pvz., Claude 3 Opus).
Taigi, ką visa tai reiškia – ir kur yra pardavėjų pažadėti patobulinimai?
Na, mes nepaliksime to, kad pardavėjai perdėtų savo teiginius. Tačiau labdaringesnis veiksmas yra tai, kad jų naudojami etalonai nėra tinkami šiam tikslui. Kaip jau rašėme anksčiau, daugelis, jei ne dauguma, AI vertinimų yra trumpalaikiai ir neturi svarbaus konteksto, pasmerkti tapti Goodharto dėsnio auka.
Nepaisant to, Zhao sako, kad ji tikisi, kad haliucinacijų problema „išliks ilgą laiką“.
„Mūsų dokumente pateikti empiriniai rezultatai rodo, kad, nepaisant pažadų tam tikrų metodų, skirtų sumažinti ar pašalinti haliucinacijas, realus pagerėjimas, kurį galima pasiekti naudojant šiuos metodus, yra ribotas“, – sakė ji. „Be to, mūsų analizė atskleidžia, kad net internete randamos žinios dažnai gali būti prieštaringos iš dalies dėl to, kad mokymo duomenys, kuriuos sukūrė žmonės, taip pat gali turėti haliucinacijų.
Laikinas sprendimas galėtų būti paprasčiausias modelių užprogramavimas, kad būtų atsisakyta atsakyti dažniau – techninis atitikmuo nurodymui viską išmanančiam žmogui atmesti.
Tyrėjų bandymų metu Claude'as 3 Haiku atsakė tik į maždaug 72% jam užduotų klausimų, o nuo kitų susilaikė. Kalbant apie susilaikymą, Claude 3 Haiku iš tikrųjų buvo pats faktiškiausias modelis iš visų – bent jau ta prasme, kad meluodavo rečiausiai.
Tačiau ar žmonės naudos tokį modelį, kuris neatsako į daugelį klausimų? Zhao mano, kad ne, ir sako, kad pardavėjai turėtų skirti daugiau laiko ir pastangų haliucinacijų mažinimo tyrimams. Visiškai pašalinti haliucinacijas gali būti neįmanoma, tačiau jas galima sušvelninti, tikrinant faktus ir cituojant modelio kūrimo metu, – tvirtina ji.
„Reikia sukurti politiką ir reglamentus, kad būtų užtikrinta, jog ekspertai visada dalyvautų procese, siekiant patikrinti ir patvirtinti generuojamųjų AI modelių sugeneruotą informaciją“, – pridūrė Zhao. „Vis dar yra daug galimybių padaryti reikšmingą poveikį šioje srityje, pavyzdžiui, sukurti pažangias bet kokio laisvo teksto faktų tikrinimo priemones, teikti faktinio turinio citatas ir siūlyti haliucinuotų tekstų pataisymus.