EZ fonctionne sans carte GPU. Aucun problème : le mode CPU-only délivre des performances solides grâce à l'optimisation des modèles et des bibliothèques CPU-efficientes.
Versions 4-bit/8-bit réduisant l'empreinte mémoire de 75% sans perte significative de qualité.
llama.cpp, Whisper.cpp & Piper TTS pour inférence rapide via AVX2/AVX-512.
Audio, LLM et TTS exécutés en parallèle sur différents threads pour maximiser les ressources.
Ajustement dynamique des batchs et threads selon la charge CPU disponible.
Choisissez la configuration adaptée à votre volume d'appels simultanés.
| Configuration | CPU | RAM | Appels Sim. | Latence | Usage |
|---|---|---|---|---|---|
| Entry / Dev | 4-6 cores (i5/Ryzen 5) | 16 GB DDR4 | 1-3 | 1.5 - 2.5s | Tests, POC, démo |
| Standard RECOMMANDÉ | 8-12 cores (i7/i9/Ryzen 7/9) | 32 GB DDR4/5 | 4-8 | 800ms - 1.5s | PME, petit call center |
| Performance | 16+ cores (EPYC/Xeon) | 64 GB DDR4/5 ECC | 8-12 | 600ms - 1s | Volume moyen, production |
| Enterprise CPU | 32+ cores Dual CPU | 128 GB+ DDR5 ECC | 12-20 | 500ms - 800ms | Grand volume sans GPU |
💡 Astuce : Activez les instructions AVX2/AVX-512 dans le BIOS pour +30-50% de performances.
⚠️ Latence plus élevée (600ms-2.5s) | Limité en concurrence maximale
⚠️ Investissement initial plus élevé | Consommation électrique accrue
Notre conseil : Commencez en CPU-only pour valider votre use case. Ajoutez un GPU plus tard si vous montez en volume.
Utilisez Q4_K_M ou Q8_0 pour réduire l'usage RAM de 75% tout en conservant 95% de la qualité.
Configurez un swap SSD NVMe de 16-32GB pour éviter les crashes lors de pics de charge.
Définissez --n-threads à 75% des cores physiques pour laisser de la marge au système.
Activez le cache KV pour réutiliser les calculs sur des conversations similaires (-40% inférence).
Placez Asterisk et IAIO sur le même serveur/VLAN pour minimiser la latence réseau RTP.
Maintenez llama.cpp et les drivers CPU à jour pour bénéficier des optimisations récentes.
Téléchargez notre guide ou contactez-nous pour un sizing personnalisé de votre infrastructure.