Installation Sans GPU | Mode CPU-Only Optimisé

EZ fonctionne sans carte GPU. Aucun problème : le mode CPU-only délivre des performances solides grâce à l'optimisation des modèles et des bibliothèques CPU-efficientes.

Note importante : Idéal pour déploiements légers, tests et petits volumes. Pour 10+ appels simultanés, nous recommandons l'ajout d'un GPU.

Voir les configurations CPU

Comment fonctionne EZ sans GPU ?

1. Modèles Quantifiés

Versions 4-bit/8-bit réduisant l'empreinte mémoire de 75% sans perte significative de qualité.

2. Moteurs CPU-Optimisés

llama.cpp, Whisper.cpp & Piper TTS pour inférence rapide via AVX2/AVX-512.

3. Pipeline Asynchrone

Audio, LLM et TTS exécutés en parallèle sur différents threads pour maximiser les ressources.

4. Auto-Scaling Intelligent

Ajustement dynamique des batchs et threads selon la charge CPU disponible.

Configurations CPU Recommandées

Choisissez la configuration adaptée à votre volume d'appels simultanés.

Configuration	CPU	RAM	Appels Sim.	Latence	Usage
Entry / Dev	4-6 cores (i5/Ryzen 5)	16 GB DDR4	1-3	1.5 - 2.5s	Tests, POC, démo
Standard RECOMMANDÉ	8-12 cores (i7/i9/Ryzen 7/9)	32 GB DDR4/5	4-8	800ms - 1.5s	PME, petit call center
Performance	16+ cores (EPYC/Xeon)	64 GB DDR4/5 ECC	8-12	600ms - 1s	Volume moyen, production
Enterprise CPU	32+ cores Dual CPU	128 GB+ DDR5 ECC	12-20	500ms - 800ms	Grand volume sans GPU

💡 Astuce : Activez les instructions AVX2/AVX-512 dans le BIOS pour +30-50% de performances.

CPU-Only vs GPU : Que choisir ?

🖥️ Mode CPU-Only

Aucun investissement GPU requis
Déploiement rapide sur infrastructure existante
Idéal pour ≤ 8 appels simultanés
Consommation électrique réduite

⚠️ Latence plus élevée (600ms-2.5s) | Limité en concurrence maximale

🎮 Avec GPU (Optionnel)

Latence ultra-faible (<500ms)
20-50 appels simultanés par GPU
Modèles plus grands et précis
Meilleur coût par minute à grande échelle

⚠️ Investissement initial plus élevé | Consommation électrique accrue

Notre conseil : Commencez en CPU-only pour valider votre use case. Ajoutez un GPU plus tard si vous montez en volume.

Optimisations pour Mode CPU

📦 Quantification

Utilisez Q4_K_M ou Q8_0 pour réduire l'usage RAM de 75% tout en conservant 95% de la qualité.

💾 RAM Swap

Configurez un swap SSD NVMe de 16-32GB pour éviter les crashes lors de pics de charge.

🔄 Threads CPU

Définissez --n-threads à 75% des cores physiques pour laisser de la marge au système.

🗂️ Cache Contexte

Activez le cache KV pour réutiliser les calculs sur des conversations similaires (-40% inférence).

🌐 Réseau Local

Placez Asterisk et IAIO sur le même serveur/VLAN pour minimiser la latence réseau RTP.

🔄 Mises à Jour

Maintenez llama.cpp et les drivers CPU à jour pour bénéficier des optimisations récentes.

Prêt à déployer en mode CPU ?

Téléchargez notre guide ou contactez-nous pour un sizing personnalisé de votre infrastructure.

Guide Installation CPU Ajouter un GPU plus tard