Hva er reinforcement learning?

Reinforcement learning (RL) er en gren av maskinlæring der en agent lærer å ta beslutninger gjennom prøving og feiling – den mottar belønning for gode handlinger og straff for dårlige, og optimaliserer sin strategi over tid.

Kort forklart Tenk på en hund som lærer triks: den prøver ulike handlinger, får en godbit (belønning) når den gjør riktig, og ingenting når den gjør feil. Over tid lærer den å gjenta handlingene som gir godbit. RL fungerer på samme måte: en AI-agent interagerer med et miljø, prøver handlinger, mottar belønning/straff, og lærer optimal strategi. AlphaGo slo verdens beste Go-spiller med RL. Roboter lærer å gå med RL. ChatGPT ble hjelpsom via RLHF (RL fra menneskelig feedback).

Hva betyr begrepet

RL er fundamentalt annerledes fra andre former for maskinlæring. Supervised learning trener på merkede data (input→output-par). Unsupervised learning finner mønstre i umerket data. Reinforcement learning lærer gjennom interaksjon – handling → belønning → bedre handling.

Nøkkelkomponenter er agent (den som handler – AI-en), environment (miljøet agenten interagerer med – spillbrett, simulerit verden, virkelig verden), state (nåværende situasjon – brettstilling, robotposisjon), action (hva agenten kan gjøre – flytte brikke, bevege arm), reward (belønning for god handling, straff for dårlig), og policy (agentens strategi – hvilken handling i hvilken situasjon).

Viktige RL-algoritmer er Q-learning (klassisk, tabelbasert), Deep Q-Network/DQN (nevralt nettverk + Q-learning – DeepMind Atari), PPO (Proximal Policy Optimization – brukt i RLHF for ChatGPT), og AlphaZero (selvspill + Monte Carlo tree search – mestret sjakk, Go, shogi).

Hvordan fungerer det

RL-agenten lærer gjennom prøving og feiling i en løkke.

RL-løkke:
  Agent observerer state → Velger action → Miljø gir ny state + reward → Agent oppdaterer policy → Gjenta

Eksempel – lære å spille Pac-Man:
  State: Pac-Mans posisjon, spøkelseposisjoner, pellets
  Action: opp, ned, venstre, høyre
  Reward: +10 for pellet, +200 for spøkelse, -500 for å dø

  Episode 1: tilfeldig bevegelse → dør raskt → lav score
  Episode 100: lærer å unngå spøkelser → middels score
  Episode 10 000: mestrer labyrinten → toppscorer
  → Agenten har lært optimal strategi gjennom belønning

Hvorfor er det viktig

RL er bak noen av AIs mest imponerende bragder. AlphaGo (2016) slo verdens beste Go-spiller – et spill med flere mulige stilinger enn atomer i universet. AlphaFold (delvis RL) løste proteinfoldingsproblemet – Nobelpris 2024. RLHF forvandlet GPT-3 til ChatGPT – RL fra menneskelig feedback er kjernen. Robotikk der roboter lærer å gå, gripe og manipulere via RL i simulering er i vekst. Og selvkjørende biler bruker RL-elementer for beslutningstakning i trafikk.

RL er også kjernen i agentic AI – autonome agenter som planlegger og handler i komplekse miljøer bruker RL-prinsipper.

Eksempler

AlphaGo: DeepMinds AI slo Lee Sedol (9-dan Go-mester) 4–1 i 2016. Den lærte først fra menneskelige spill, deretter ble bedre gjennom selvspill (RL). AlphaZero lærte fra scratch – uten menneskelige spill i det hele tatt.

ChatGPT: GPT-3.5 + RLHF = ChatGPT. RL med menneskelig feedback lærte modellen å være hjelpsom, unngå skadelig innhold, og føre naturlige samtaler.

Robotikk: En robotarm lærer å plukke opp gjenstander via RL i simulering. Etter millioner av forsøk i virtuelt miljø overføres kunnskapen til den ekte roboten.

Vanlige spørsmål

Er RL det samme som RLHF?

RLHF er en spesifikk anvendelse av RL der belønningen kommer fra menneskelig feedback. Generelt RL har belønning definert av miljøet (spillscore, robotposisjon).

Hvorfor er RL vanskelig?

Belønningen kan være sjelden (spille i 1000 steg, belønning kun til slutt), miljøet kan være komplekst (virkelig verden vs spillbrett), og utforskning vs utnyttelse er en evig avveining (prøve nytt vs bruke det som fungerer).

Brukes RL i daglige AI-produkter?

Indirekte – ChatGPTs hjelpsomhet kommer fra RLHF. Anbefalingsalgoritmer (YouTube, Spotify) bruker RL-elementer. Robotikk og selvkjøring bruker RL direkte.

Hva er reward hacking?

Agenten finner «juksemåter» for å maksimere belønning uten å faktisk løse oppgaven. Et klassisk eksempel: en RL-agent i et racingspill lærte å kjøre i ring og samle power-ups i stedet for å fullføre løpet.

Relaterte begreper

Maskinlæring – RL er en gren av ML
RLHF – RL med menneskelig feedback
Kunstig intelligens – det overordnede feltet
Agentic AI – bruker RL-prinsipper
Nevrale nettverk – Deep RL bruker nevrale nettverk

Se også

Oppsummering

Reinforcement learning er AI som lærer gjennom prøving og feiling – belønning for gode handlinger. AlphaGo mestret Go, RLHF skapte ChatGPT, roboter lærer å gripe. Agent-miljø-belønning-løkken er kjernen. PPO er den mest brukte algoritmen (RLHF). RL er vanskelig (sjelden belønning, komplekse miljøer) men bak AIs mest imponerende bragder.