Une requête texte courte coûte de l'ordre de 0,3 Wh (Gemini mesuré à ~0,24 Wh, GPT-4o à ~0,43 Wh, un Claude Haiku autour de 0,2 Wh), soit l'équivalent d'une recherche Google. Sur un modèle de raisonnement ou un prompt très long, ça grimpe à plusieurs dizaines de Wh. Derrière le chiffre : une requête d'inférence dans un data center, payée en électricité. Le comparatif des trois IA dit lequel est le plus sobre.
Quand vous tapez une question dans ChatGPT, vous ne consultez pas une page déjà écrite : vous déclenchez un calcul en direct, une requête d'inférence, c'est-à-dire le moment où un modèle déjà entraîné produit une réponse. Ce calcul tourne sur des processeurs spécialisés, dans un data center, et il consomme de l'électricité. La question pratique est simple : combien, exactement, pour une seule requête ? La réponse courte tient en un chiffre : de l'ordre de 0,3 Wh pour une requête texte courante, soit ~0,02 g de CO2 en France. Le reste de cet article explique d'où vient ce chiffre, pourquoi il peut être cent fois plus élevé, et ce que vous pouvez en faire.
Ce chiffre de 0,3 Wh est un ordre de grandeur, pas une mesure auditée : les éditeurs propriétaires comme OpenAI ne publient presque rien d'officiel. On va donc raisonner en fourchettes : comment le chiffre se construit, ce qui le fait varier d'un facteur cent, et ce qui compte vraiment, le volume mondial que votre requête rejoint. Le convertisseur ci-dessus traduit déjà votre rythme quotidien en équivalents annuels.
Pour une requête texte courte sur un modèle d'usage de masse, l'ordre de grandeur publié converge autour de 0,3 Wh. Google a mesuré une requête médiane à son IA (Gemini) à ~0,24 Wh (arxiv 2508.15734) ; Sam Altman, patron d'OpenAI, a avancé ~0,34 Wh pour une requête ChatGPT moyenne (The Gentle Singularity) ; un benchmark indépendant situe GPT-4o autour de 0,43 Wh (« How Hungry is AI? »). Trois méthodes indépendantes, une même zone basse ; en repères concrets, voici ce que ça pèse.
Le CO2 n'est pas une propriété de la requête : c'est l'énergie multipliée par l'intensité carbone du réseau qui l'alimente. Une requête traitée dans un data center français, branché sur un mix très nucléarisé, émet une fraction de ce qu'émet la même requête aux États-Unis. D'où une règle utile pour situer un chiffre de conso numérique parmi d'autres ordres de grandeur carbone : un Wh ne dit rien tant qu'on ne sait pas où il est consommé.
L'électricité n'est d'ailleurs pas la seule ressource en jeu : la même mesure de Google chiffre aussi ~0,26 mL d'eau par requête médiane, cinq gouttes, détaillées dans l'empreinte eau d'une requête d'IA. Voilà le repère posé. Mais il a une limite, et elle est de taille.
Le « 0,3 Wh » vaut pour une requête courte sur un modèle optimisé. Changez de modèle, allongez votre prompt, et le chiffre peut être multiplié par cent. Trois variables expliquent l'essentiel de l'écart.
Toute la consommation se mesure en tokens, l'unité de base que l'IA manipule : un fragment de mot, environ 0,75 mot en français. Le modèle lit vos tokens d'entrée, puis fabrique sa réponse un token à la fois, et chaque token produit consomme de l'électricité. L'énergie suit donc le volume de tokens, surtout en sortie : un échange de 1 000 tokens en entrée et 1 000 en sortie consomme environ trois fois plus qu'un échange de 100 en entrée et 300 en sortie. Ce n'est pas le nombre de questions qui pèse, c'est la longueur cumulée de ce qui entre et sort.
« ChatGPT » est une interface, pas un seul moteur. Derrière, OpenAI active des modèles très différents : un GPT-4o optimisé pour l'usage de masse reste dans la zone du 0,3-0,4 Wh ; un modèle plus capable comme GPT-5 mobilise davantage de paramètres, donc plus de calcul par token, donc plus d'énergie. À tâche égale, passer d'un petit modèle à un gros multiplie déjà la conso par 10 à 50. L'image est celle d'un moteur : on ne sort pas le V8 pour aller chercher le pain. Le comparatif détaillé par modèle chiffre l'écart marque par marque.
Deux situations font exploser le compteur. D'abord les prompts longs : joindre un document de 200 pages (~100 000 tokens) pousse une requête vers ~40 Wh, quel que soit le modèle. Ensuite les modèles de raisonnement : avant de répondre, ils rédigent un monologue interne que vous ne voyez pas, une longue suite de tokens où ils déroulent leur réflexion étape par étape. Ce brouillon caché représente souvent 3 à 15 fois plus de tokens que la réponse finale, ce qui fait bondir la requête à 15-33 Wh (benchmark indépendant).
Entre une requête courte sobre et ce cas extrême, le facteur dépasse 100, pour un geste qui semble identique : taper une question. Un chiffre « par requête » sans son contexte ne dit donc rien : c'est ainsi qu'est né le mythe du « x10 » face à une recherche Google, bâti sur un calcul supposant des réponses quatre fois trop longues.
Si une requête coûte si peu, où est le problème ? Il n'est pas dans votre requête : il est dans leur nombre. C'est l'erreur de perspective classique sur l'IA. Deux faits suffisent à poser l'échelle.
Premier fait : l'inférence, c'est-à-dire l'usage, domine désormais l'entraînement. Elle représente autour de 63 % de l'énergie consommée sur la vie d'un modèle de pointe en 2026, contre 37 % pour l'entraînement. L'entraînement est un coût ponctuel, payé une fois ; l'inférence se répète à chaque requête, sur des centaines de millions d'utilisateurs. Chaque nouvel usage de masse (assistants, agents, recherche augmentée) installe donc un flux d'énergie permanent.
Des milliards de requêtes par jour : agrégée, la goutte de 0,3 Wh devient l'un des moteurs du doublement de l'électricité des data centers d'ici 2030 (IEA).
Second fait : le volume explose. Le nombre de tokens traités dans le monde est projeté à x24 entre 2026 et 2030 (Goldman Sachs), et l'électricité des data centers fait plus que doubler en six ans : ~415 TWh en 2024, ~945 TWh en 2030, soit ~3 % de l'électricité mondiale, un peu plus que le Japon, selon l'IEA, Energy and AI. Cette consommation a déjà crû quatre fois plus vite que la demande électrique totale depuis 2017, au point que l'IEA estime qu'un projet de data center sur cinq risque d'être retardé faute de raccordement au réseau.
Votre requête à 0,3 Wh est dérisoire ; les milliards de requêtes quotidiennes, non. C'est sous cet angle qu'il faut intégrer l'IA dans un bilan carbone Scope 3 : à l'échelle d'une organisation, l'IA rejoint le poste numérique de l'entreprise, et c'est le volume agrégé d'usage, pas la requête unitaire, qui fait le chiffre.
Le repère « 0,3 Wh » sert à deux choses : relativiser, et agir. Relativiser, parce qu'à l'échelle d'un individu, l'usage de ChatGPT pèse une fraction infime de son empreinte, loin derrière les transports ou l'alimentation. Agir, parce qu'à l'échelle d'une organisation qui multiplie les usages, quelques réflexes simples divisent la facture énergétique sans rien perdre en qualité. Le calculateur ci-dessous chiffre vos propres textes, modèle par modèle.
Aucun de ces réflexes ne coûte un centime, et aucun ne dégrade l'expérience. Le bon état d'esprit n'est pas de culpabiliser à chaque requête (la goutte d'eau reste une goutte d'eau), mais d'adapter l'outil au besoin, surtout quand l'usage se compte en milliers de requêtes par mois.
Retenez le chiffre, mais retenez surtout sa limite : 0,3 Wh ne dit rien sans le modèle, le prompt et le pays qui vont avec. Pour aller plus loin, le comparatif ChatGPT, Claude et Gemini donne les chiffres par modèle, le panorama de l'empreinte carbone de l'IA replace l'ensemble à l'échelle d'une organisation, et la méthode pour compter l'IA dans votre bilan en fait un poste chiffré.
Pour une requête texte courte, l'ordre de grandeur est d'environ 0,3 Wh : Google a mesuré une requête médiane à son IA autour de 0,24 Wh, Sam Altman a cité 0,34 Wh pour ChatGPT, et un benchmark indépendant situe GPT-4o vers 0,43 Wh. C'est l'équivalent d'une recherche Google. Sur un modèle de raisonnement ou un prompt long, la consommation peut grimper à 15-40 Wh.
Une requête courte de ~0,3 Wh émet environ 0,02 g de CO2 en France (mix électrique ~55 g/kWh) et environ 0,12 g aux États-Unis (mix ~400 g/kWh). Le CO2 dépend donc moins de la requête elle-même que du pays où se trouve le data center : le même Wh peut émettre jusqu'à 8 fois plus selon l'intensité carbone du réseau.
Beaucoup moins qu'on ne le répète : c'est le même ordre de grandeur, soit environ 1,5 à 3 fois une recherche classique selon les repères retenus, pas dix. Le seul chiffre officiel de Google (~0,3 Wh, publié en 2009) est même équivalent au coût d'une requête ChatGPT courte actuelle. Le fameux « dix fois plus » vient d'un vieux calcul qui surestimait ChatGPT à ~3 Wh, invalidé depuis ; l'écart ne se creuse vraiment que sur les modèles de raisonnement et les prompts très longs.
Un token est un fragment de mot : en français, environ 0,75 mot ou quatre caractères. Le modèle découpe votre texte en tokens, en lit (entrée) puis en produit (sortie), et chaque token généré consomme de l'électricité. C'est donc le volume de tokens traités, surtout en sortie, et non le nombre de requêtes, qui détermine la consommation d'une requête ChatGPT.
Les estimations situent l'usage mondial de ChatGPT autour de 15 TWh en 2025, pour environ 1 170 milliards de requêtes par an, soit l'électricité d'environ 3 millions de foyers français. Et la trajectoire compte plus que le point : l'IEA projette que l'électricité de l'ensemble des data centers passera de ~415 TWh en 2024 à ~945 TWh en 2030, environ 3 % de l'électricité mondiale.
À l'échelle d'un individu, non : une requête courte consomme comme une recherche Google et pèse une fraction infime d'une empreinte personnelle, loin derrière les transports ou l'alimentation. Le vrai sujet est l'agrégat : multipliée par des milliards d'usages quotidiens, cette énergie tire la demande électrique des data centers, projetée à ~3 % de l'électricité mondiale en 2030.