Tokens vs. Embeddings: Zwei komplett verschiedene Dinge
Tokens vs. Embeddings: Zwei komplett verschiedene Dinge
Viele sprechen über Tokens und Embeddings – und meinen dabei oft „irgendwas mit KI". Dabei sind es zwei komplett unterschiedliche Dinge.
🔢 Tokens: Die Text-Bausteine
Tokens sind die Text-Bausteine, mit denen ein Modell arbeitet. Ein Satz wird in kleine Einheiten zerlegt (Wortteile, Wörter, Zeichen). Je mehr Text, desto mehr Tokens. Tokens sind also eine Zählgröße für Input/Output.
🧭 Embeddings: Die Bedeutungs-Repräsentation
Embeddings sind dagegen eine Bedeutungs-Repräsentation von Text als Zahlenvektor. Stell dir vor: Aus „Hund" wird nicht „4 Tokens", sondern ein Pfeil im Bedeutungsraum, der „Hund" nah an „Welpe", „Tier" und weiter weg von „Steuerbescheid" platziert.
💡 Der wichtige Punkt
Die Länge eines Embeddings hängt nicht von der Anzahl der Tokens ab.
Warum? Weil ein Embedding typischerweise eine fixe Dimension hat (z. B. 768 oder 1536 Zahlen) – egal ob du ein Wort oder einen Absatz einbettst. Das Modell „komprimiert" den Inhalt in dieselbe Vektorlänge, so wie ein Foto immer z. B. 1024x1024 Pixel haben kann, egal ob viel oder wenig im Bild passiert.
Was wovon abhängt
- Was von Tokens abhängt: Rechenaufwand und Kontextverarbeitung beim Erzeugen des Embeddings (mehr Tokens = mehr zu verarbeiten).
- Was nicht davon abhängt: Die Größe/Dimension des Embeddings selbst.
🔹 Kurzform
- Tokens = „Wie viel Text?" (Zählgröße)
- Embeddings = „Was bedeutet der Text?" (Vektor in fixer Länge)
Bereit für den nächsten Schritt?
Erzählen Sie uns von Ihrem Vorhaben – wir finden gemeinsam die passende KI-Lösung für Ihr Unternehmen.
Jetzt Beratung anfragen