“IQ umjetne inteligencije” zvuči primamljivo, ali ne postoji jedna brojka koja pošteno opisuje što AI zna. Modeli mogu briljirati na kvizovima sličnima IQ testovima, no to nije isto što i opća inteligencija. Zato se strojevi danas ocjenjuju na širim skupovima zadataka.
Ideja da AI ima “IQ 130” ili “195” povremeno se pojavi u medijima ili blogovima koji puštaju modele kroz Mensa-like zadatke. Problem je što su ti testovi rađeni za ljude i lakše ih je “naučiti” iz interneta; rezultat nije stabilan ni usporediv između modela.
I istraživači koji su to testirali kažu da klasični IQ testovi nisu dobar alat za strojeve: mogu poslužiti kao zanimljiv benchmark za pojedine sposobnosti, ali ne mjere “inteligenciju” AI-a u cjelini.
Umjesto jedne brojke, vrh AI zajednice koristi velike, raznolike benchmarke. Primjer su MMLU (57 područja od matematike do prava) i BIG-bench/BBH, koji ispituju razumijevanje, znanje i zaključivanje kroz stotine različitih zadataka. Na tim skupovima modeli se uspoređuju transparentno, uz javne liste i metodologiju. Ako želite “gdje je tko” bez mitologije o IQ-u, to su mjesta koja vrijedi gledati.
Ako tražite brojke, umjesto “IQ-a” dakle gledamo rezultate na takvim testovima. MMLU (puno školskih pitanja iz 57 predmeta) - najbolji modeli su na oko 90% točnosti. GSM8K (osnovnoškolski matematički zadaci riječima) - top modeli su oko 96–97%. HumanEval (provjera koda u Pythonu) - vrh je oko 90%+ točnih rješenja. GPQA (teška pitanja iz fizike/kemije/biologije) - rezultati su 50–65%, jer je to znatno zahtjevnije. Važno je još za znati da neki od najčešće korištenih AI modela, na primjer Perplexity, nisu jedan model nego aplikacija koja “ispod haube” koristi različite modele (npr. GPT, Claude, Gemini), pa se i njegovi rezultati mijenjaju ovisno o tome koji je model odabran.
Zašto je onda “AI IQ” toliko varljiv? Modeli možda prepoznaju uzorke i rješavaju vizualne matrice bolje od prosječnog čovjeka, ali padaju na drugim stvarima (npr. pogrešno sažimaju znanstvene radove ili haluciniraju činjenice). Čak se pojavljuju i signali “svjesnosti testiranja” kod nekih sustava, što može nakositi rezultate. Sve to još jedanput pokazuje da nam treba više različitih mjerenja, a ne jedna zlatna brojka.
Pogledajte objašnjenje o inteligenciji umjetne inteligencije:
Ako se pitate “koliki je IQ umjetne inteligencije”, najpošteniji odgovor je nema ga . mjerimo sposobnosti po domenama. Na pojedinim IQ-sličnim zadacima modeli znaju biti “iznad prosjeka”, ali u praksi ih procjenjujemo po širokim, otvoreno objavljenim benchmarkima (MMLU, BIG-bench i dr.) i stvarnim zadacima koje trebaju rješavat
Igre na sreću mogu izazvati ovisnost. 18+
Sve što je bitno, na dohvat ruke
Skini aplikaciju za najbolje iskustvo portala. Čitaj, komentiraj i budi uvijek u toku s najnovijim vijestima.
Odaberi temu koju želiš pratitiPrimaj sve nove vijesti o temi i budi u tijeku