Installation Sans GPU | Mode CPU-Only Optimisé

EZ fonctionne sans carte GPU. Aucun problème : le mode CPU-only délivre des performances solides grâce à l'optimisation des modèles et des bibliothèques CPU-efficientes.

Note importante : Idéal pour déploiements légers, tests et petits volumes. Pour 10+ appels simultanés, nous recommandons l'ajout d'un GPU.
Voir les configurations CPU

Comment fonctionne EZ sans GPU ?

1. Modèles Quantifiés

Versions 4-bit/8-bit réduisant l'empreinte mémoire de 75% sans perte significative de qualité.

2. Moteurs CPU-Optimisés

llama.cpp, Whisper.cpp & Piper TTS pour inférence rapide via AVX2/AVX-512.

3. Pipeline Asynchrone

Audio, LLM et TTS exécutés en parallèle sur différents threads pour maximiser les ressources.

4. Auto-Scaling Intelligent

Ajustement dynamique des batchs et threads selon la charge CPU disponible.

Configurations CPU Recommandées

Choisissez la configuration adaptée à votre volume d'appels simultanés.

ConfigurationCPURAMAppels Sim.LatenceUsage
Entry / Dev4-6 cores (i5/Ryzen 5)16 GB DDR41-31.5 - 2.5sTests, POC, démo
Standard RECOMMANDÉ8-12 cores (i7/i9/Ryzen 7/9)32 GB DDR4/54-8800ms - 1.5sPME, petit call center
Performance16+ cores (EPYC/Xeon)64 GB DDR4/5 ECC8-12600ms - 1sVolume moyen, production
Enterprise CPU32+ cores Dual CPU128 GB+ DDR5 ECC12-20500ms - 800msGrand volume sans GPU

💡 Astuce : Activez les instructions AVX2/AVX-512 dans le BIOS pour +30-50% de performances.

CPU-Only vs GPU : Que choisir ?

🖥️ Mode CPU-Only

  • Aucun investissement GPU requis
  • Déploiement rapide sur infrastructure existante
  • Idéal pour ≤ 8 appels simultanés
  • Consommation électrique réduite

⚠️ Latence plus élevée (600ms-2.5s) | Limité en concurrence maximale

Notre conseil : Commencez en CPU-only pour valider votre use case. Ajoutez un GPU plus tard si vous montez en volume.

Optimisations pour Mode CPU

📦 Quantification

Utilisez Q4_K_M ou Q8_0 pour réduire l'usage RAM de 75% tout en conservant 95% de la qualité.

💾 RAM Swap

Configurez un swap SSD NVMe de 16-32GB pour éviter les crashes lors de pics de charge.

🔄 Threads CPU

Définissez --n-threads à 75% des cores physiques pour laisser de la marge au système.

🗂️ Cache Contexte

Activez le cache KV pour réutiliser les calculs sur des conversations similaires (-40% inférence).

🌐 Réseau Local

Placez Asterisk et IAIO sur le même serveur/VLAN pour minimiser la latence réseau RTP.

🔄 Mises à Jour

Maintenez llama.cpp et les drivers CPU à jour pour bénéficier des optimisations récentes.

Prêt à déployer en mode CPU ?

Téléchargez notre guide ou contactez-nous pour un sizing personnalisé de votre infrastructure.

Guide Installation CPU Ajouter un GPU plus tard