Zvuči banalno, ali većina multimodalnih AI modela ozbiljno griješi kad treba pročitati vrijeme na analognom satu. IEEE Spectrum opisuje više studija koje su to testirale i došle do sličnog zaključka: ljudima lagan zadatak, za AI vrlo težak.
Tech
Komentari 1
Zvuči banalno, ali većina multimodalnih AI modela ozbiljno griješi kad treba pročitati vrijeme na analognom satu. IEEE Spectrum opisuje više studija koje su to testirale i došle do sličnog zaključka: ljudima lagan zadatak, za AI vrlo težak.
Najnoviji osvrt IEEE Spectruma koji proučava AI sustave sažima rezultate više radova: modeli koji bez problema rješavaju kvizove i opisuju slike zapinju na jednostavnim satovima s dvije kazaljke. I kada prepoznaju brojčanik, često krivo zbroje kutove ili zamijene satnu i minutnu kazaljku, pa daju krivo vrijeme. Autori ističu da je to dobra “rengenska snimka” ograničenja današnjih sustava, jer zadatak traži i precizno viđenje i osnovno prostorno zaključivanje.
Jedan od novih testova je ClockBench: 180 satova i 720 pitanja, od klasičnih brojčanika do rimskih brojki i stiliziranih kazaljki. Neuvježbani ljudi postižu oko 89% točnosti, dok vrhunski modeli značajno zaostaju. Istraživači zaključuju da ni “razmišljanje u koracima” ne pomaže ako je vizualna percepcija nesigurna, jer i mali pomaci kazaljki i “čudni” dizajni ruše rezultat.
Slične nalaze ima i tim sa Sveučilišta u Edinburghu: modeli često pogrešno tumače položaje kazaljki, a kada se zadatak proširi na kalendare, greške rastu. Zaključak je da trenutni sustavi više pogađaju uzorke nego što “razumiju” pravila geometrije i vremena, pa su osjetljivi na detalje koje ljudi lako zanemare.
Jedan rad posebno je analizirao GPT-4.1 i pokazao da se ciljanom doradom (fine-tuning) rezultat može popraviti, ali i tada zadatak ostaje osjetljiv na izobličene brojčanike i netipične kazaljke. Drugim riječima, “čitati sat” za AI još nije riješen problem, samo se može donekle ublažiti treniranjem.
Ovakvi testovi lijepo podsjećaju da modeli nisu univerzalno pouzdani “vid i mozak”, nego skup sposobnosti s rupama. Ako AI u vašoj aplikaciji treba tumačiti instrumente, brojčanike, kalendare ili dijagrame, treba ga posebno učiti i provjeravati, ali i zadržati ljudski nadzor.
Igre na sreću mogu izazvati ovisnost. 18+