Google

Gemini 2.x Flash : coût et marge brute par client

Gemini Flash est le modèle à faible latence et faible coût de Google. Des tokens d'entrée bon marché le rendent bien adapté aux produits riches en retrieval, où vous injectez de grands contextes à prix fixe.

Gemini Flash a une entrée étonnamment bon marché (0,30 $/Mtok), ce qui le rend idéal pour injecter de grands contextes — RAG, analyse de documents — sans plomber votre marge. La sortie est modérée, donc les flux générant beaucoup coûtent plus que le seul prix d'entrée ne le suggère.

Entrée

$0.3 /Mtok

Sortie

$2.5 /Mtok

Marge par client selon l'usage et le prix du plan

Comment la marge de Gemini 2.x Flash tient à mesure que l'usage d'un client grimpe, sur les prix d'abonnement courants.

Usage / moisCoût LLM19 $/mois29 $/mois49 $/mois79 $/mois
Léger0,11 $US99.4%99.6%99.8%99.9%
Typique0,53 $US97.2%98.2%98.9%99.3%
Intense2,10 $US88.9%92.8%95.7%97.3%
Power user8,65 $US54.5%70.2%82.3%89.1%

Marge % par client à chaque prix de plan. Prix des tokens indicatifs, en date de 2026-06.

Sur les 0,53 $US qu'un client typique coûte avec Gemini 2.x Flash, les tokens de sortie représentent 0,38 $US (72 %) et l'entrée 0,15 $US. La sortie est tarifée à 2.5 $/Mtok — 8,3× le tarif d'entrée — donc plus votre produit génère par requête, plus vite la marge d'un client s'effrite.

Exemple chiffré

Prenez un power user sur votre plan à 49 $/mois envoyant 8 M de tokens d'entrée / 2,5 M de sortie par mois. Sur Gemini 2.x Flash, cela fait 8,65 $US en tokens — c'est encore confortable à 82,3 % (40,35 $US) — même un gros utilisateur vous laisse nettement dans le vert sur la plupart des prix de plan.

Comment garder Gemini 2.x Flash rentable

  • Élaguez et mettez en cache le contexte d'entrée — longs prompts système et historique de chat renvoyé sont du coût pur et répété.
  • Plafonnez la longueur de sortie et arrêtez la génération tôt quand vous le pouvez : à environ 8,3× le prix d'entrée, chaque token généré en plus est là où Gemini 2.x Flash fait le plus mal.
  • Routez les requêtes faciles vers un modèle moins cher et réservez Gemini 2.x Flash aux tâches difficiles qui en ont vraiment besoin.
  • Posez une alerte de marge par client pour qu'un seul gros utilisateur ne glisse pas dans le rouge en silence.

Quand choisir Gemini 2.x Flash

Choisissez Gemini Flash pour les produits riches en contexte et pilotés par le retrieval : une entrée bon marché vous laisse injecter de grands documents à prix fixe sans douleur côté marge.

FAQ

Combien coûte Gemini 2.x Flash par client ?
À un usage typique de 500 k tokens d'entrée / 150 k de sortie par client et par mois, Gemini 2.x Flash coûte environ 0,53 $US par client (entrée 0.3/Mtok, sortie 2.5/Mtok).
Gemini 2.x Flash est-il rentable pour un SaaS IA à 49 $/mois ?
À usage typique, oui — la marge est d'environ 98,9 % (48,47 $US par client). Elle s'érode quand l'usage grimpe ; les utilisateurs intenses et les power users sont là où Gemini 2.x Flash peut devenir déficitaire.
Quelle est une bonne marge brute pour un SaaS IA utilisant Gemini 2.x Flash ?
La plupart des produits IA visent une marge brute de 60 à 80 %. Avec Gemini 2.x Flash à usage typique, vous êtes autour de 98,9 % sur un plan à 49 $ — confortable — mais votre marge globale dépend des gros utilisateurs, et c'est le chiffre à surveiller.
À partir de quel usage Gemini 2.x Flash cesse-t-il d'être rentable sur un plan à 29 $ ?
Autour de 27,4 M d'entrée / 8,2 M de sortie par mois. Au-delà, un client à 29 $ vous coûte plus qu'il ne paie.
Comment réduire le coût de Gemini 2.x Flash par client ?
Réduisez d'abord les tokens de sortie (les plus chers), mettez en cache ou élaguez le contexte d'entrée, routez les requêtes faciles vers un modèle moins cher, et surveillez le seuil de rentabilité — autour de 46,2 M d'entrée / 13,9 M de sortie, un client à 49 $ cesse d'être rentable.

Comparer ce modèle

Autres modèles

Termes clés