Ockhams barberkniv er en bærebjelke for store språkmodeller

I vitenskapen har det lenge vært en grunnregel at de enkleste forklaringene er de beste. Når en teori kan forklare noe med færrest mulig antakelser, regnes den som mer elegant – ja, noen ganger til og med vakker. Dette prinsippet kalles Ockhams barberkniv: alt som er unødvendig bør skjæres vekk.

Selv Rema 1000 har fanget opp ideen med slagordet “Det enkle er ofte det beste”. Og kanskje er det ikke så overraskende at dette prinsippet – forenkling – også ligger til grunn for hvordan moderne kunstig intelligens fungerer?

Ockham er ute og forenkler med barberkniven sin (AI-generert chatgpt 4o)

Hva er egentlig en transformer?

Transformere er en type maskinlæringsmodeller som ligger bak de store språkmodellene – som ChatGPT, Gemini og Claude. Disse modellene er laget for å forstå sammenhengen mellom ord, og forutsi hva som kommer videre i en tekst.

Det som gjør transformere unike, er det vi kaller oppmerksomhetsmekanismer. Disse lar modellen vurdere hvilke ord i en tekst som er viktige i sammenhengen. I stedet for å behandle alle ord likt, fokuserer modellen på utvalgte deler av teksten, og gir disse mer “vekt”.

Dette skjer blant annet gjennom matematiske funksjoner som softmax og ReLU, som bidrar til å forsterke signalene fra enkelte ord og dempe andre. På den måten lærer modellen å hente ut det vesentlige – og overse støy.

Hvorfor velger modellen det enkle?

Språkmodeller har det som kalles en forenklingstendens (simplicity bias). Det betyr at de har en naturlig tilbøyelighet til å velge de enkleste løsningene først – altså sammenhenger mellom få og nærliggende ord.

Dette gjør dem mer robuste. Hvis du bytter ut et uvesentlig ord i en setning, vil svaret som oftest være det samme – fordi modellen har lært å fokusere på det som faktisk betyr noe.

Under trening begynner modeller ofte med å lære grunnleggende mønstre, som hvordan subjekt og verb henger sammen, eller hvordan kjønn og entall/flertall uttrykkes i språket. Først etter at denne basiskunnskapen er på plass, beveger modellen seg videre til mer komplekse oppgaver, som logiske resonnementer eller tekstforståelse på høyt nivå.

Ulike vekter fra modellen llama 2. Horisontalt vises første del av setningen, mens andre del vises vertikalt. Tallene viser hvilke ord i første del som var med å påvirke ordene i andre del. Det å være advokat har dårlig sammenheng med matlaging, mens "Palm Coast" hanger sammen med "golf". (Kilde: Pytorch Captum)

Fra enkle mønstre til kompleks forståelse

Selv om modellene starter med det enkle, er de ikke begrenset til det. Transformere er i stand til å finne svært kompliserte mønstre – spesielt når de får nok dybde og kontekst.

Kontekstlengde handler om hvor mye tekst modellen kan ta inn samtidig. Store modeller som Gemini 2.5 kan analysere opptil 700 000 ord på én gang. Det gir enorm kapasitet – men også et behov for å velge ut den informasjonen som faktisk er relevant.

Dybden i en modell viser hvor mange lag med analyse den gjør før den gir et svar. Hvert lag kan kombinere informasjon på nye måter. DeepSeek V3, for eksempel, har 61 slike lag. Når hvert ord i en tekst kan kobles til alle andre ord, og dette skjer i lag etter lag, blir det mulig å oppdage svært komplekse sammenhenger – selv om modellen begynner med det enkle.

Transformer modeller har vist at de også kan være veldig gode til å analysere bilder. I bildet over ser vi det DinoV2 fokuserer på når den skal forstå et bilde. Her også blir det viktig å kunne trekke ut det essensielle, avhengig av hvilke oppgaver man skal gjøre. (Kilde: DinoV2 artikkel))

Ockhams barberkniv i praksis

Ockhams barberkniv handler om mer enn filosofi – den viser seg å være en nøkkel til hvorfor språkmodeller faktisk fungerer. Forskere som Rende og Bhattamishra peker på nettopp denne evnen til å finne enkle forklaringer som en viktig grunn til modellenes suksess.

Transformer-modeller viser seg nyttige på mange områder hvor man skal modellere svært kompliserte sammenhenger, som å gjette “utseende” til et protein basert på RNA-sekvenser (AlphaFold), eller fysikksimuleringer.

[leela_moves.webp]

Her er det eksempler fra et sjakk spill, publisert fra uviklingbloggen til Leela, hvor det er markert hva KIen fokuserer på når den vurderer det rødmerkede feltet. Her ser vi at, self om KIen kun er trent opp til å vinne mest mulig, så har den lært å trekke ut enkle sammenhenger, som hvor en brikke mest sannynlig kan komme fra.

Det som kjennetegner disse problemene, hvor transformerne gjør det veldig bra, er data der det er ufattelig mange mulige sammenhenger, men hvor de faktiske sammenhengene er enklere. Disse problemene er det mange av. Kanskje du kjenner til et mulig neste problem?