Obavijesti

Tech

Komentari 4

Jeste li se ikad pitali koliki IQ ima umjetna inteligencija?

Jeste li se ikad pitali koliki IQ ima umjetna inteligencija?

“IQ umjetne inteligencije” zvuči primamljivo, ali ne postoji jedna brojka koja pošteno opisuje što AI zna. Modeli mogu briljirati na kvizovima sličnima IQ testovima, no to nije isto što i opća inteligencija. Zato se strojevi danas ocjenjuju na širim skupovima zadataka.

Ideja da AI ima “IQ 130” ili “195” povremeno se pojavi u medijima ili blogovima koji puštaju modele kroz Mensa-like zadatke. Problem je što su ti testovi rađeni za ljude i lakše ih je “naučiti” iz interneta; rezultat nije stabilan ni usporediv između modela.

I istraživači koji su to testirali kažu da klasični IQ testovi nisu dobar alat za strojeve: mogu poslužiti kao zanimljiv benchmark za pojedine sposobnosti, ali ne mjere “inteligenciju” AI-a u cjelini.

Ne želite da vaše dijete koristi AI za pisanje domaće zadaće? Tech kompanije nije briga
Ne želite da vaše dijete koristi AI za pisanje domaće zadaće? Tech kompanije nije briga

Umjesto jedne brojke, vrh AI zajednice koristi velike, raznolike benchmarke. Primjer su MMLU (57 područja od matematike do prava) i BIG-bench/BBH, koji ispituju razumijevanje, znanje i zaključivanje kroz stotine različitih zadataka. Na tim skupovima modeli se uspoređuju transparentno, uz javne liste i metodologiju. Ako želite “gdje je tko” bez mitologije o IQ-u, to su mjesta koja vrijedi gledati. 

5 osobnih stvari koje nikada ne biste trebali otkriti ChatGPT-ju
5 osobnih stvari koje nikada ne biste trebali otkriti ChatGPT-ju

Ako tražite brojke, umjesto “IQ-a” dakle gledamo rezultate na takvim testovima. MMLU (puno školskih pitanja iz 57 predmeta) - najbolji modeli su na oko 90% točnosti. GSM8K (osnovnoškolski matematički zadaci riječima) - top modeli su oko 96–97%. HumanEval (provjera koda u Pythonu) - vrh je oko 90%+ točnih rješenja. GPQA (teška pitanja iz fizike/kemije/biologije) - rezultati su 50–65%, jer je to znatno zahtjevnije. Važno je još za znati da neki od najčešće korištenih AI modela, na primjer Perplexity, nisu jedan model nego aplikacija koja “ispod haube” koristi različite modele (npr. GPT, Claude, Gemini), pa se i njegovi rezultati mijenjaju ovisno o tome koji je model odabran.

VIDEO Majke mi, imam čip: Kinezi morali rezati robota da dokažu da nije pravi čovjek!
VIDEO Majke mi, imam čip: Kinezi morali rezati robota da dokažu da nije pravi čovjek!

Zašto je onda “AI IQ” toliko varljiv? Modeli možda prepoznaju uzorke i rješavaju vizualne matrice bolje od prosječnog čovjeka, ali padaju na drugim stvarima (npr. pogrešno sažimaju znanstvene radove ili haluciniraju činjenice). Čak se pojavljuju i signali “svjesnosti testiranja” kod nekih sustava, što može nakositi rezultate. Sve to još jedanput pokazuje da nam treba više različitih mjerenja, a ne jedna zlatna brojka. 

Pogledajte objašnjenje o inteligenciji umjetne inteligencije:

Ako se pitate “koliki je IQ umjetne inteligencije”, najpošteniji odgovor je nema ga . mjerimo sposobnosti po domenama. Na pojedinim IQ-sličnim zadacima modeli znaju biti “iznad prosjeka”, ali u praksi ih procjenjujemo po širokim, otvoreno objavljenim benchmarkima (MMLU, BIG-bench i dr.) i stvarnim zadacima koje trebaju rješavat

Igre na sreću mogu izazvati ovisnost. 18+

Sve što je bitno, na dohvat ruke
Skini aplikaciju za najbolje iskustvo portala. Čitaj, komentiraj i budi uvijek u toku s najnovijim vijestima.
Komentari 4
Pogledajte koliko su Kinezi prodali auta u Hrvatskoj prošli mjesec! Iza su Renault, Audi...
GRABE PREMA VRHU

Pogledajte koliko su Kinezi prodali auta u Hrvatskoj prošli mjesec! Iza su Renault, Audi...

Kad se zbroje svi prodani kineski auti u listopadu dolazimo do brojke od 299 čime bi došli na četvrto mjesto, iza Volkswagena, Škode i Opela
Isprobali smo Huawei Watch Ultimate 2. Avanturistički luksuz
TEŠKAŠ MEĐU SATOVIMA

Isprobali smo Huawei Watch Ultimate 2. Avanturistički luksuz

Huaweijev ogromni sat je i velik korak unaprijed po značajkama. Može zaroniti do 150 metara, a ronioci preko njega mogu komunicirati sonarom s drugim Ultimate satom. A dobio je i nedavno predstavljeni X-Tap senzor