Sur un plan à prix fixe, chaque token qu’un client déclenche est prélevé sur votre marge. Pas besoin de sacrifier la qualité pour réduire le coût — l’essentiel de la dépense LLM est du gaspillage structurel : du contexte renvoyé à chaque tour, des sorties plus longues que nécessaire, et des modèles coûteux utilisés pour du travail facile. Voici les leviers, à peu près dans l’ordre de leur vitesse de rentabilité.
1. Élaguer et mettre en cache le contexte d’entrée
Les longs prompts système, l’historique de conversation complet et les gros documents récupérés sont renvoyés à chaque requête — vous les payez à nouveau à chaque fois. Élaguez le prompt à ce dont le modèle a réellement besoin, résumez les anciens tours au lieu de les renvoyer mot pour mot, et utilisez le cache de prompts là où votre fournisseur le permet. Pour les produits gourmands en récupération, un modèle à entrée moins chère (Gemini Flash, DeepSeek) amplifie l’économie.
2. Contrôler la longueur de sortie
Les tokens de sortie coûtent généralement 3 à 5× le prix de l’entrée, donc la génération est l’endroit où la facture est la plus sensible. Fixez des limites de tokens raisonnables, arrêtez la génération une fois la réponse complète, et évitez de demander des formats verbeux quand un format court suffit. Sur les produits gourmands en sortie, c’est en général le plus gros gain à lui seul.
3. Router vers le bon modèle
Toutes les requêtes n’ont pas besoin de votre modèle le plus performant. Routez la classification simple, l’extraction et les réponses courtes vers un palier bon marché et rapide (GPT-4o mini, Claude Haiku) et réservez le modèle premium aux tâches réellement difficiles. Un bon routeur peut réduire le coût de plus de moitié sans perte de qualité perceptible sur la majorité facile du trafic.
4. Mettre en cache et dédupliquer
Les requêtes identiques ou quasi identiques sont fréquentes — la même question, le même document résumé deux fois. Mettez les réponses en cache quand c’est sûr, dédupliquez les appels en cours, et réutilisez les embeddings plutôt que de les recalculer. Chaque hit de cache est une requête que vous ne payez pas.
5. Surveiller par client
Tout ce qui précède ne fonctionne que si vous voyez où part le coût. Suivez le coût LLM par client, trouvez votre seuil de rentabilité sur chaque plan, et posez une alerte quand un compte passe dans le rouge. Optimiser sans mesurer, c’est deviner ; avec la mesure, vous corrigez les clients qui font vraiment bouger le chiffre.
Testez n’importe quel modèle et niveau d’usage dans le calculateur gratuit pour voir exactement où un client devient déficitaire — puis connectez vos vraies données avec MarginWard pour le suivre automatiquement.
Détail du coût par modèle