Hva er nevrale nettverk?

Nevrale nettverk (neural networks) er en type maskinlæringsmodell løst inspirert av den biologiske hjernens struktur. De består av sammenkoblede noder (nevroner) organisert i lag, som prosesserer informasjon og lærer å gjenkjenne mønstre fra data. Nevrale nettverk er grunnlaget for nesten all moderne AI – fra bildegjenkjenning og taleforståelse til ChatGPT og selvkjørende biler.

Kort forklart Nevrale nettverk er datamaskinprogrammer som lærer av eksempler, omtrent som en hjerne. Du gir dem mange eksempler, og de finner selv mønstrene – uten at du trenger å programmere reglene.

Biologisk inspirasjon

Den biologiske hjernen består av milliarder av nevroner koblet sammen med synapser. Hver nevron mottar signaler fra andre nevroner, prosesserer dem, og sender et signal videre hvis signalstyrken overstiger en terskel.

Kunstige nevrale nettverk etterligner dette prinsippet i forenklet form. Hvert kunstig nevron mottar tall (input) fra andre nevroner, multipliserer dem med vekter som representerer synapsestyrke, summerer de vektede inputene, og sender resultatet gjennom en aktiveringsfunksjon som bestemmer output.

Det er viktig å understreke at kunstige nevrale nettverk er en matematisk forenkling – de er ikke biologiske hjerner og «tenker» ikke slik mennesker gjør.

Arkitektur

Nevroner

Et nevron er den grunnleggende beregningsenheten. Det tar inn flere tall, multipliserer hvert med en vekt, legger sammen, legger til en bias-verdi, og sender resultatet gjennom en aktiveringsfunksjon. Aktiveringsfunksjonen avgjør om nevronet «fyrer» – altså sender et signal videre.

Vanlige aktiveringsfunksjoner er ReLU (Rectified Linear Unit) som sender positive verdier videre og blokkerer negative, sigmoid som komprimerer verdier til mellom 0 og 1, og softmax som konverterer output til sannsynligheter som summerer til 1.

Lag

Nevroner organiseres i lag. Inputlaget mottar dataene – for eksempel pikslene i et bilde eller ordene i en setning. Skjulte lag prosesserer informasjonen gjennom flere trinn av abstraksjon. Det kan finnes alt fra ett til hundrevis av skjulte lag. Outputlaget gir det endelige resultatet – for eksempel en klassifisering eller en prediksjon.

Dypere nettverk med flere lag kan lære mer komplekse mønstre – dette er opprinnelsen til begrepet «dyp læring» (deep learning).

Vekter og bias

Vektene er tallene som multipliseres med inputen – de representerer styrken på forbindelsen mellom nevroner. Bias er et tilleggstall som justerer nevronets terskel. Under trening justeres vektene og biasene gradvis for å forbedre nettverkets ytelse.

Et moderne nevralt nettverk kan ha milliarder av vekter. GPT-4 antas å ha over en billion parametre.

Trening

Treningsprosessen

Trening av et nevralt nettverk skjer gjennom gjentatt eksponering for data. Nettverket mottar et input-eksempel og produserer et output. Outputet sammenlignes med det korrekte svaret, og feilen beregnes. Feilen propageres bakover gjennom nettverket (backpropagation), og vektene justeres litt for å redusere feilen. Prosessen gjentas millioner eller milliarder av ganger.

Over tid lærer nettverket å gjenkjenne mønstre i dataene – fra enkle egenskaper i de første lagene til komplekse konsepter i de dypere lagene.

Tapsfunksjon

Tapsfunksjonen (loss function) måler hvor langt nettverkets prediksjon er fra det korrekte svaret. Målet med trening er å minimere tapsfunksjonen. Valg av tapsfunksjon avhenger av oppgaven – MSE (Mean Squared Error) for regresjon, cross-entropy for klassifisering.

Optimizer

Optimizeren er algoritmen som bestemmer hvordan vektene oppdateres basert på feilen. Adam er den mest brukte optimizeren og kombinerer flere teknikker for effektiv trening. SGD (Stochastic Gradient Descent) er enklere men fortsatt mye brukt.

Epoker og batch-størrelse

Treningen organiseres i epoker – hver epoke er én gjennomgang av hele treningsdatasettet. Dataene deles i batches som prosesseres sammen for effektivitet. Typisk trenes nettverk over 3–100 epoker avhengig av datasettets størrelse og oppgavens kompleksitet.

Typer nevrale nettverk

Feedforward-nettverk (FNN)

Den enkleste typen der informasjon flyter i én retning – fra input gjennom skjulte lag til output. Brukes for tabelldata, enkel klassifisering og regresjon.

Konvolusjonelle nettverk (CNN)

CNN-er er spesialisert for bildegjenkjenning. De bruker konvolusjonslag som skanner små deler av bildet med filtre for å oppdage mønstre som kanter, teksturer og former. CNN-er driver bildegjenkjenning, ansiktsdeteksjon og medisinsk bildeanalyse.

Rekurrente nettverk (RNN) og LSTM

RNN-er er designet for sekvensdata som tekst, tale og tidsserier. De har en «hukommelse» som lar informasjon flyte fra ett tidssteg til neste. LSTM (Long Short-Term Memory) er en forbedret variant som løser problemer med å huske informasjon over lange sekvenser.

Transformere

Transformer-arkitekturen, introdusert i 2017, revolusjonerte AI. I stedet for å prosessere sekvenser ett element om gangen, bruker transformere «attention»-mekanismen for å vurdere alle elementer i sekvensen samtidig. Denne arkitekturen er grunnlaget for alle moderne språkmodeller – GPT, Claude, Gemini og Llama er alle basert på transformere.

Generative Adversarial Networks (GAN)

GAN-er består av to nettverk – en generator som lager innhold og en diskriminator som vurderer om innholdet er ekte eller generert. De to nettverkene konkurrerer og forbedrer hverandre. GAN-er var banebrytende for bildegenerering men er nå i stor grad erstattet av diffusjonsmodeller.

Overtrening og generalisering

Et vanlig problem er overtrening (overfitting) – der nettverket lærer treningsdataene utenat i stedet for å lære generelle mønstre. Et overtrent nettverk presterer utmerket på treningsdata men dårlig på nye, ukjente data.

Teknikker for å unngå overtrening inkluderer regularisering som legger til en kostnad for store vekter, dropout som tilfeldig deaktiverer nevroner under trening, data augmentation som utvider treningsdata med kunstige variasjoner, og early stopping som avslutter treningen før overtrening oppstår.

Nevrale nettverk i hverdagen

Nevrale nettverk driver allerede mange teknologier du bruker daglig. Ansiktsgjenkjenning på telefonen din bruker CNN-er. Stemmeassistenter som Siri og Google Assistant bruker RNN-er og transformere. ChatGPT og Claude er massive transformer-nettverk. Bildefiltre på Instagram bruker stil-overførings-nettverk. Automatisk oversettelse i Google Translate bruker transformer-nettverk. Anbefalingssystemer på Netflix og Spotify bruker dyp læring.

Begrensninger

Nevrale nettverk har viktige begrensninger. De krever store mengder data for å trene effektivt. De er energikrevende å trene og kjøre. De er ofte «svarte bokser» der det er vanskelig å forklare hvorfor de tar bestemte beslutninger. De kan videreføre og forsterke skjevheter i treningsdataene. De er sårbare for adversarial attacks – små, usynlige endringer i input som lurer nettverket.

Ofte stilte spørsmål

Er nevrale nettverk det samme som AI?

Nei, men de er den viktigste teknikken i moderne AI. Nevrale nettverk er en type maskinlæring, som igjen er en undergruppe av AI. Andre AI-teknikker finnes også, men nevrale nettverk dominerer i dag.

Kan nevrale nettverk tenke som mennesker?

Nei. Nevrale nettverk er matematiske modeller som gjenkjenner mønstre. De har ingen bevissthet, forståelse eller intensjon. De simulerer noen aspekter av informasjonsprosessering, men på en fundamentalt annerledes måte enn biologiske hjerner.

Hvor mange lag trenger et nettverk?

Det avhenger av oppgavens kompleksitet. Enkle oppgaver som lineær regresjon trenger bare noen lag. Bildegjenkjenning krever typisk 50–200 lag. Språkmodeller som GPT-4 har trolig hundrevis av lag.

Kan jeg trene et nevralt nettverk selv?

Ja. Med rammeverk som PyTorch og TensorFlow kan du bygge og trene nevrale nettverk. For enkle oppgaver holder en laptop. For avanserte modeller trenger du GPUer. Mange kurs og tutorials er tilgjengelig online.