Tokens vs. Embeddings: Twee compleet verschillende dingen

Veel mensen praten over tokens en embeddings – en bedoelen daarmee vaak “iets met AI”. Maar het zijn twee compleet verschillende dingen.

🔢 Tokens: De tekstbouwstenen

Tokens zijn de tekstbouwstenen waarmee een model werkt. Een zin wordt opgesplitst in kleine eenheden (woorddelen, woorden, tekens). Hoe meer tekst, hoe meer tokens. Tokens zijn dus een teleenheid voor input/output.

🧭 Embeddings: De betekenisrepresentatie

Embeddings daarentegen zijn een betekenisrepresentatie van tekst als numerieke vector. Stel je voor: van “hond” worden niet “4 tokens” gemaakt, maar een pijl in de betekenisruimte die “hond” dicht bij “puppy” en “dier” plaatst – en ver weg van “belastingaanslag”.

💡 Het belangrijke punt

De lengte van een embedding hangt niet af van het aantal tokens.

Waarom? Omdat een embedding doorgaans een vaste dimensie heeft (bijv. 768 of 1536 getallen) – ongeacht of je een woord of een hele alinea inbedt. Het model “comprimeert” de inhoud tot dezelfde vectorlengte, net zoals een foto altijd bijv. 1024x1024 pixels kan hebben, ongeacht hoeveel of hoe weinig er in het beeld gebeurt.

Wat waarvan afhangt

Wat van tokens afhangt: Rekenkracht en contextverwerking bij het genereren van de embedding (meer tokens = meer te verwerken).
Wat er niet van afhangt: De grootte/dimensie van de embedding zelf.

🔹 Kort samengevat

Tokens = “Hoeveel tekst?” (teleenheid)
Embeddings = “Wat betekent de tekst?” (vector met vaste lengte)

Klaar voor de volgende stap?

Vertel ons over uw project – samen vinden we de juiste AI-oplossing voor uw bedrijf.

Adviesgesprek aanvragen