MoE ≠ minder RAM – maar meer snelheid ⚡️

Er bestaat een hardnekkig misverstand dat Mixture-of-Experts (MoE) het geheugengebruik op eindapparaten verlaagt. In werkelijkheid worden bij inference-serving alle expert-gewichten geladen. De truc van MoE: per token worden slechts enkele experts (bijv. Top-2) berekend. Dit bespaart FLOPs en verhoogt de doorvoer – vooral bij grote providers met veel GPU’s – maar bespaart niet op gewichten. 💾

📊 Cijfers voor een gevoel

Model	FP16	4-bit
Dense 7B	≈ 14 GB	≈ 4–5 GB (+ KV-cache)
Dense 70B	≈ 140 GB	≈ 35–45 GB
MoE 8x7B (Top-2)	≈ 112 GB (totaal ≈ 56 B param)	≈ 28–35 GB
MoE 16x8B (Top-2)	≈ ~256 GB (totaal ≈ 128 B)	≈ 64–80 GB

Bij MoE 8x7B zijn per token slechts ≈ 14 B parameters actief – maar er blijven ~56 B geladen.

🚀 Waarom providers van MoE houden

Hogere doorvoer: Slechts 2 van de 8 (of 16) experts rekenen → meer tokens/s per GPU-budget.
Betere specialisatie: Experts leren niches, de kwaliteit stijgt bij dezelfde actieve parameters.

🙃 Waarom eindgebruikers zelden RAM besparen

Alle experts moeten resident zijn (GPU/CPU). Een 8x7B-MoE past in FP16 pas vanaf ≥2x80 GB-GPU’s of met sterke kwantisering/offload.
Extra geheugen wordt verbruikt door KV-cache (batching, contextlengte!). Paged-attention helpt bij KV-cache, niet bij gewichten.

⭐ Uitzonderingen (met een flinke kanttekening)

Er zijn setups die experts “swappen”:

CPU-/NVMe-offload: Alleen actieve experts worden naar de GPU verplaatst. Hiervoor heb je vaak 256–512 GB systeem-RAM of zeer snelle NVMe-arrays (20–40 GB/s) nodig – en je krijgt er latencypieken (+50–300 ms/token) en complexiteit voor terug.
On-demand-loading/expert-paging: Onderzoeksstadium, fragiel, lage doorvoer. Het werkt, maar niet “gratis”.

🧠 Conclusie

MoE is primair een doorvoer-/efficiëntiehefboom voor providers, niet de magische RAM-bespaarder voor de thuis-pc. Als het doel RAM-reductie is: kies dan liever kleine dichte modellen, agressieve kwantisering (bijv. 4-bit) en slimme KV-cache-strategieën. Als het doel kosten per token is: MoE schittert. ✨

Klaar voor de volgende stap?

Vertel ons over uw project – samen vinden we de juiste AI-oplossing voor uw bedrijf.

Adviesgesprek aanvragen