Hva er tokenizer?

En tokenizer er komponenten som oversetter menneskelig tekst til tokens – de numeriske enhetene en AI-modell faktisk forstår og prosesserer. Det er AI-ens «lesebriller.»

Kort forklart AI leser ikke bokstaver – den leser tall. En tokenizer deler tekst i «tokens» – biter som kan være hele ord, ordeler eller tegn. «Kunstig intelligens» kan bli to tokens: «Kunstig» + « intelligens». «Unhelpfulness» kan bli tre: «Un» + «helpful» + «ness». Ulike modeller bruker ulike tokenizere – det er derfor norsk tekst «koster» flere tokens enn engelsk (tokenizerne er primært trent på engelsk). Tokenizeren bestemmer hva modellen ser, og dermed hva den kan forstå.

Hva betyr begrepet

En tokenizer har tre jobber: dele tekst i tokens (subord, ord eller tegn), konvertere tokens til tall-IDer (fra vokabularet), og rekonstruere tekst fra tall-IDer (detokenisering).

BPE (Byte Pair Encoding) er den mest brukte algoritmen. Den starter med individuelle tegn, finner de mest frekvente tegnparene og slår dem sammen, gjentar iterativt til ønsket vokabularstørrelse er nådd, og resultatet er et vokabular av vanlige ord, delord og sjeldne tegn.

Vanlige tokenizer-varianter er GPT-tokenizer (tiktoken) som bruker BPE med ~100 000 tokens i vokabularet, SentencePiece som brukes av Llama, Mistral og mange åpne modeller, og WordPiece som brukes av Google BERT.

Norsk og tokenisering: fordi tokenizerne er primært trent på engelsk tekst, representeres norske ord ofte med flere tokens enn engelske. «Kryptovaluta» kan bli 3–4 tokens mens «cryptocurrency» er 1–2. Det betyr at norsk tekst «koster» 30–50 prosent flere tokens – du bruker context window raskere og betaler mer per API-kall.

Hvordan fungerer det

Tokenizeren deler tekst i prosesserbare biter.

Input: "Kunstig intelligens endrer verden"

GPT-4 tokenizer (tiktoken):
  "Kunst" + "ig" + " intelli" + "gens" + " end" + "rer" + " verd" + "en"
  = 8 tokens

Engelsk ekvivalent: "Artificial intelligence changes the world"
  "Artificial" + " intelligence" + " changes" + " the" + " world"
  = 5 tokens

→ Norsk bruker ~60 % flere tokens for samme mening
→ Det betyr: dyrere API, mindre plass i context window

Du kan teste tokenisering selv på platform.openai.com/tokenizer – lim inn tekst og se nøyaktig hvordan den deles.

Hvorfor er det viktig

Tokenizeren er en usynlig men kritisk komponent som påvirker alt: kostnad (du betaler per token – flere tokens = dyrere), kontekstvindu (128K tokens = færre norske ord enn engelske), kvalitet (dårlig tokenisering av sjeldne språk = dårligere modellytelse), og hastighet (flere tokens = lenger inferenstid).

Flerspråklige tokenizere (Llama 3, Gemini) er bedre på norsk enn eldre modeller – de har større vokabular som inkluderer norske ord som hele tokens.

Eksempler

API-kostnad: Du sender 1 000 ord norsk tekst til GPT-4 API. Det blir ~1 500 tokens. Samme mening på engelsk: ~1 000 tokens. Du betaler 50 prosent mer for norsk.

Emojis: «😀» er 1 token. «Hei! 😀» er 3 tokens. Emojis har egne tokens i vokabularet.

Kode: Programmeringskode er typisk tokeneffektiv – vanlige nøkkelord (function, return, if) er ofte 1 token hver.

Vanlige spørsmål

Hvorfor koster norsk tekst mer?

Tokenizerne er primært trent på engelsk – norske ord deles oftere i sub-tokens. «Kryptovaluta» = 3–4 tokens, «cryptocurrency» = 1–2.

Kan jeg velge tokenizer?

Nei – den er bundet til modellen. Men du kan optimalisere: bruk kortere formuleringer, engelske fagtermer der det er naturlig, og vær bevisst på token-forbruk.

Hva er vokabularstørrelse?

Antall unike tokens i tokenizeren. GPT-4: ~100 000. Llama 3: ~128 000. Større vokabular = bedre for flerspråklig men mer minne per token.

Hva er en spesialtoken?

Tokens som ikke representerer tekst men kontrollsignaler: [BOS] (begynnelse), [EOS] (slutt), [PAD] (utfylling). De styrer modellens atferd.

Relaterte begreper

Tokens i AI – det tokenizeren produserer
Context window – begrenses av tokenantall
Kunstig intelligens – det overordnede feltet
Parametere og vekter – prosesserer tokens
Inference – genererer tokens

Se også

Oppsummering

En tokenizer oversetter tekst til tokens – tallene AI faktisk prosesserer. BPE er den dominerende algoritmen. Norsk bruker ~30–50 prosent flere tokens enn engelsk – dyrere og bruker context window raskere. Større vokabular (Llama 3, Gemini) gir bedre flerspråklig tokenisering. Test på platform.openai.com/tokenizer. Tokenizeren er usynlig men påvirker kostnad, kvalitet og hastighet.