En bref : Le coût des tokens IA, c'est ce que vous payez à chaque fragment de texte lu ou écrit par un modèle. Le prix unitaire s'effondre, près de 80 % en un an, mais les factures grimpent : les agents qui raisonnent en boucle consomment cinq à trente fois plus de tokens par tâche. Moins cher l'unité, beaucoup plus cher au total.

L'unité de l'intelligence artificielle n'a jamais coûté aussi peu. Et pourtant, partout, les factures montent. Pour comprendre ce paradoxe, il faut regarder ce qu'on achète vraiment quand on utilise un modèle, et combien on en consomme sans le voir. Tout se joue sur une mécanique simple, que voici.

Un token, c'est quoi, et pourquoi vous le payez deux fois

Un modèle ne lit pas des mots, il lit des tokens : des fragments de texte. Un mot français vaut à peu près un token et demi, un prompt de 500 mots tourne autour de 700 tokens. Vous payez les tokens qui entrent (votre question, les documents joints, l'historique) et ceux qui sortent (la réponse). Et la sortie coûte cher : trois à cinq fois plus que l'entrée en moyenne.

Pire, les modèles récents qui raisonnent produisent des tokens que vous ne lisez jamais. Avant de répondre, ils réfléchissent à voix basse, alignent des étapes, vérifient. Ces tokens de raisonnement n'apparaissent pas dans la réponse, mais ils sont facturés, souvent au tarif de la sortie. Vous payez la réflexion autant que le résultat.

Le paradoxe : les prix s'effondrent, les factures explosent

En un an, le prix au token a chuté d'environ 80 % (Deloitte). Un million de tokens d'entrée chez les modèles courants est passé sous les 3 dollars, et la guerre des prix entre OpenAI et Anthropic est loin d'être finie.

Logiquement, votre facture devrait fondre. C'est l'inverse qui se produit. La dépense IA des entreprises a bondi d'environ 320 % (Deloitte) sur la même période, et le volume de tokens consommés a été multiplié par treize depuis le début 2025. Quand le carburant devient deux fois moins cher mais qu'on roule dix fois plus, le plein coûte plus cher. L'IA vit exactement ça.

« Le token n'a jamais été aussi bon marché. C'est précisément pour ça que vous en brûlez beaucoup plus que vous ne le croyez. »

Le vrai coupable : l'agent qui réfléchit en boucle

Ce qui fait gonfler la note, ce ne sont pas vos collègues qui posent plus de questions. Ce sont les agents. Un agent autonome ne répond pas en un coup : il découpe la tâche, appelle des outils, vérifie son travail, se corrige. Une seule demande peut déclencher dix à vingt appels au modèle, et un agent consomme cinq à trente fois plus de tokens qu'un simple chatbot pour la même tâche.

Le chiffre qui résume tout : une interaction qui coûtait 0,04 dollar en 2023 en coûte près de 1,20 dollar aujourd'hui. Dès qu'elle passe par un agent à outils ou raisonnement c’est près de trente fois plus. Et comme la facturation est à l'usage, un agent mal conçu qui boucle sur lui-même peut générer une facture à cinq chiffres avant que quiconque s'en aperçoive. Pas d'alerte, pas de plafond, juste le relevé à la fin du mois.

Ce que ça change pour vous

Vous dirigez une petite équipe, vous avez branché un assistant ou deux, et la facture du fournisseur vous paraît un peu floue. Ce flou n'est pas une fatalité, c'est un défaut de conception. Le piège, c'est l'agent fourre-tout à qui on demande « débrouille-toi », lâché sans mesure ni limite.

Notre conviction n'a pas bougé : une IA crée de la valeur quand elle est ancrée dans une tâche précise. Un agent vague censé tout faire explore, tâtonne et brûle des tokens. Un agent ciblé sur un processus net (trier ces e-mails, extraire ces champs, répondre à ces dix questions) consomme peu et coûte ce qu'on avait prévu. La sobriété n'est pas une contrainte technique, c'est ce qui rend l'IA rentable.

Trois réflexes pour ne pas brûler votre budget

Mesurez avant de déployer

On ne maîtrise que ce qu'on mesure. Suivez la consommation par tâche et par agent, posez un plafond et une alerte. Sans visibilité, vous découvrez le problème sur le relevé.

Délimitez la tâche et le contexte

N'envoyez au modèle que ce qui sert. Un contexte gonflé coûte plus cher et répond moins bien. Une tâche précise vaut mieux qu'un agent qui doit tout faire.

Le bon modèle, et le cache

Réservez le modèle le plus cher aux tâches qui le méritent. Activez le cache : réutiliser un contexte déjà envoyé peut coûter dix fois moins. Ces mesures font souvent 40 à 60 % d'économies.

Rien là-dedans ne demande une armée d'ingénieurs. Juste de traiter les tokens comme un budget, pas comme une ressource infinie. C'est le réflexe qu'on installe avant même d'écrire la première ligne de code.

Questions fréquentes

Faut-il choisir le modèle le moins cher pour économiser ?

Pas forcément. Un petit modèle bon marché qui s'y reprend à trois fois coûte parfois plus qu'un grand modèle qui répond juste du premier coup. Le bon réflexe n'est pas « le moins cher », c'est « le plus adapté à la tâche ». On teste, on mesure, on tranche sur la facture réelle, pas sur le prix affiché.

Un abonnement à forfait me met-il à l'abri des mauvaises surprises ?

Il plafonne la dépense, mais il crée un autre piège : épuiser le quota en plein milieu d'une journée chargée et paralyser l'équipe. Et les offres hybrides facturent les dépassements, avec des notes parfois deux à trois fois supérieures au budget annoncé. Le forfait ne remplace pas la mesure, il la rend juste moins visible.

Au fond, la vraie question n'est plus « combien coûte un token », puisque la réponse baisse chaque trimestre. Elle est devenue : savez-vous combien de tokens vos outils brûlent en ce moment, et pour produire quelle valeur ?