Obavijesti

Tech

Komentari 2

AI pamti više nego što mislite: Izvukli skoro cijelog Harryja Pottera - od riječi do riječi

AI pamti više nego što mislite: Izvukli skoro cijelog Harryja Pottera - od riječi do riječi

Novi rad na arXivu tvrdi da se i iz produkcijskih, komercijalnih AI modela može izvući iznenađujuće velika količina teksta iz knjiga, čak i uz zaštite koje bi to trebale spriječiti. Autori kažu da su testirali četiri velika sustava i dobili vrlo različite rezultate, od gotovo cijele knjige do tek nekoliko posto.

Admiral

U radu ‘Extracting books from production language models’ autori su istraživali pitanje koje je sve važnije u raspravama o autorskim pravima: koliko modeli ‘pamte’ trening podatke i može li se taj sadržaj kasnije izvući kao gotovo identičan tekst. Testirali su četiri produkcijska LLM-a: Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro i Grok 3. Kao mjeru uspješnosti koriste ‘nv-recall’, metodu koja broji dovoljno dugačke, kontinuirane dijelove teksta koji su blizu originalu.

Najzvučniji dio rezultata je primjer s ‘Harry Potter i Čarobnjakov kamen’. U jednom setu postavki autori navode da su s Claudeom 3.7 Sonnet, nakon zaobilaženja zaštita, dobili nv-recall od 95,8% (dakle, velik dio knjige se pojavio gotovo identično). Za Gemini 2.5 Pro i Grok 3 tvrde da su dobili 76,8% i 70,3% bez takvog zaobilaženja. S druge strane, za GPT-4.1 navode da je trebalo puno više pokušaja, a sustav je na kraju odbio nastaviti, pa je rezultat bio oko 4%.

Musk u problemu, skandal oko AI golotinje na Groku sve širi. Zemlje ga blokiraju, idu istrage
Musk u problemu, skandal oko AI golotinje na Groku sve širi. Zemlje ga blokiraju, idu istrage
OpenAI lansirao ChatGPT Health
OpenAI lansirao ChatGPT Health

Autori naglašavaju i ograničenja: nisu tvrdili da su ‘maksimizirali’ koliko se može izvući iz svakog modela, niti da se isto može napraviti sa svakom knjigom. U dijelu eksperimenata (testirali su 11 knjiga objavljenih prije 2020.) mnogi pokušaji su završili s malo ili nimalo ‘čistog’ poklapanja (nv-recall do 10%). No poanta im je da i uz zaštite na razini modela i sustava, curenje zaštićenog teksta i dalje ostaje realan rizik.

Zašto je to bitno? Prvo, udara u samu srž rasprave o tome treniraju li AI modeli na zaštićenim djelima na način koji je ‘dovoljno transformativan’ ili ponekad samo vraćaju original. Drugo, ovo nije samo pitanje knjiga: ako sustav može ‘pustiti’ duge komade trening podataka, isti obrazac je problematičan i za druge vrste osjetljivih sadržaja u podacima. Treće, za tvrtke to znači da ‘sigurnosne ograde’ moraju biti jače od klasičnog filtriranja odgovora, jer istraživači pokazuju da se rupe mogu naći i u produkciji.

Možete li prepoznati koje su fotke lažne? Sa samo 5 minuta treninga uspješnost je 64%
Možete li prepoznati koje  su fotke lažne? Sa samo 5 minuta treninga uspješnost je 64%
Ovih 10 profesija će nestati do 2030.: Je li i vaša na popisu?
Ovih 10 profesija će nestati do 2030.: Je li i vaša na popisu?

Još jedan važan detalj je proces objave: autori kažu da su eksperimente radili od sredine kolovoza do sredine rujna 2025., zatim obavijestili kompanije (Anthropic, Google DeepMind, OpenAI i xAI) i čekali 90 dana prije javne objave. Navode i da su tijekom tog razdoblja uočili promjene u dostupnosti nekih modela u sučelju, ali da je nakon isteka roka metoda i dalje radila na dijelu sustava koje su testirali.

Igre na sreću mogu izazvati ovisnost. 18+

Sve što je bitno, na dohvat ruke
Skini aplikaciju za najbolje iskustvo portala. Čitaj, komentiraj i budi uvijek u toku s najnovijim vijestima.
Komentari 2
'Moraš sagradit sve': Stigli LEGO Pokémoni, evo i cijena
PIKA PIKA

'Moraš sagradit sve': Stigli LEGO Pokémoni, evo i cijena

LEGO je napokon predstavio prve službene Pokémon setove i cilja ravno na odrasle fanove i kolekcionare. U prvom valu su Eevee, Pikachu s Poké Ballom i ogromna diorama s Charizardom, Blastoiseom i Venusaurom.