MoE ≠ minder RAM – maar meer snelheid ⚡️
MoE ≠ minder RAM – maar meer snelheid ⚡️
Er bestaat een hardnekkig misverstand dat Mixture-of-Experts (MoE) het geheugengebruik op eindapparaten verlaagt. In werkelijkheid worden bij inference-serving alle expert-gewichten geladen. De truc van MoE: per token worden slechts enkele experts (bijv. Top-2) berekend. Dit bespaart FLOPs en verhoogt de doorvoer – vooral bij grote providers met veel GPU’s – maar bespaart niet op gewichten. 💾
📊 Cijfers voor een gevoel
| Model | FP16 | 4-bit |
|---|---|---|
| Dense 7B | ≈ 14 GB | ≈ 4–5 GB (+ KV-cache) |
| Dense 70B | ≈ 140 GB | ≈ 35–45 GB |
| MoE 8x7B (Top-2) | ≈ 112 GB (totaal ≈ 56 B param) | ≈ 28–35 GB |
| MoE 16x8B (Top-2) | ≈ ~256 GB (totaal ≈ 128 B) | ≈ 64–80 GB |
Bij MoE 8x7B zijn per token slechts ≈ 14 B parameters actief – maar er blijven ~56 B geladen.
🚀 Waarom providers van MoE houden
- Hogere doorvoer: Slechts 2 van de 8 (of 16) experts rekenen → meer tokens/s per GPU-budget.
- Betere specialisatie: Experts leren niches, de kwaliteit stijgt bij dezelfde actieve parameters.
🙃 Waarom eindgebruikers zelden RAM besparen
- Alle experts moeten resident zijn (GPU/CPU). Een 8x7B-MoE past in FP16 pas vanaf ≥2x80 GB-GPU’s of met sterke kwantisering/offload.
- Extra geheugen wordt verbruikt door KV-cache (batching, contextlengte!). Paged-attention helpt bij KV-cache, niet bij gewichten.
⭐ Uitzonderingen (met een flinke kanttekening)
Er zijn setups die experts “swappen”:
- CPU-/NVMe-offload: Alleen actieve experts worden naar de GPU verplaatst. Hiervoor heb je vaak 256–512 GB systeem-RAM of zeer snelle NVMe-arrays (20–40 GB/s) nodig – en je krijgt er latencypieken (+50–300 ms/token) en complexiteit voor terug.
- On-demand-loading/expert-paging: Onderzoeksstadium, fragiel, lage doorvoer. Het werkt, maar niet “gratis”.
🧠 Conclusie
MoE is primair een doorvoer-/efficiëntiehefboom voor providers, niet de magische RAM-bespaarder voor de thuis-pc. Als het doel RAM-reductie is: kies dan liever kleine dichte modellen, agressieve kwantisering (bijv. 4-bit) en slimme KV-cache-strategieën. Als het doel kosten per token is: MoE schittert. ✨
Klaar voor de volgende stap?
Vertel ons over uw project – samen vinden we de juiste AI-oplossing voor uw bedrijf.
Adviesgesprek aanvragen