Quelle IA pollue le moins : ChatGPT, Claude ou Gemini ?

À l'épreuve du réel, aucune marque n'est sobre ou gourmande en bloc : ChatGPT, Claude et Gemini hébergent chacun des modèles légers et des modèles lourds, et c'est le modèle activé plus le nombre de tokens générés qui font l'empreinte. Entre une requête courte sur un petit modèle et un prompt long sur un modèle de raisonnement, l'écart atteint un facteur 100. Voici les chiffres modèle par modèle, ce qui les explique, et quoi choisir pour quelle tâche, jusqu'à l'intégration dans votre bilan carbone.

On compare souvent ChatGPT, Claude et Gemini comme s'il s'agissait de marques de voiture, dont l'une serait sobre et l'autre énergivore. C'est la mauvaise grille de lecture. La consommation d'une requête ne dépend presque pas du logo en haut de la fenêtre : elle dépend du modèle que vous activez derrière, et du nombre de tokens qu'il génère. Entre une requête courte sur un petit modèle (~0,22 Wh) et un modèle de raisonnement lancé sur un prompt long (~33 Wh), l'énergie varie d'un facteur 100. Cet article donne les chiffres 2026, modèle par modèle, ce qui explique l'écart, et quoi choisir pour quelle tâche.

Quel modèle consomme le plus, et lequel le moins ?

Voici les ordres de grandeur d'une requête texte courante en 2026, du plus sobre au plus gourmand, avec le CO2 associé (qui dépend du pays du data center : ~50-60 g/kWh en France, ~400+ g/kWh aux États-Unis).

Recherche Google (repère) -> ~0,2 Wh | une fraction de gramme de CO2. Le point bas auquel comparer tout le reste.
Claude Haiku (petit modèle d'Anthropic) -> ~0,22 Wh | ~0,01-0,09 g CO2. Le plus léger et le plus rapide.
Gemini (Google, requête médiane) -> ~0,24 Wh | ~0,01-0,1 g CO2 (et ~0,26 mL d'eau). Seul chiffre publié par l'éditeur.
GPT-4o (OpenAI, usage de masse) -> ~0,43 Wh | ~0,02-0,17 g CO2. Modèle optimisé.
Claude Sonnet (modèle courant, estimation) -> ~2,5-3 Wh | ~0,1-1,2 g CO2. La famille polyvalente du quotidien.
Modèle de raisonnement (o-series, DeepSeek-R1, requête longue) -> ~15-33 Wh | plusieurs à dizaines de g CO2. Une autre catégorie.

Pour fixer ces ordres de grandeur : une requête courte sur un modèle optimisé, c'est l'équivalent énergétique d'une recherche Google environ (le face-à-face avec Google démonte le mythe du x10), soit une ampoule LED allumée une à deux minutes. À l'unité, l'IA n'a rien d'un gouffre. Mais entre cette requête sobre et un modèle de raisonnement sur prompt long, le facteur dépasse 100. Cent fois, pour un geste qui semble identique : taper une question.

C'est précisément pourquoi un chiffre unique « par requête » ne veut pas dire grand-chose tant qu'on ne précise pas le modèle. Et la preuve tient en une seule famille de modèles : sur Claude, l'écart entre Haiku, le plus léger, et un modèle de raisonnement creuse déjà un facteur élevé à marque identique. Le modèle compte plus que le logo - et c'est une bonne nouvelle, car le modèle, contrairement au logo, se choisit à chaque requête.

Une précaution d'honnêteté s'impose sur la provenance de ces chiffres. Google est le seul éditeur à avoir publié une mesure de production : ~0,24 Wh et ~0,26 mL d'eau par requête médiane (étude d'août 2025). Mistral a publié de son côté la première analyse de cycle de vie complète d'un grand modèle, menée avec Carbone 4 et l'ADEME : ~1,14 g CO2e et ~45 mL d'eau par réponse de 400 tokens - un périmètre ACV bien plus large que la seule électricité du data center, donc non comparable terme à terme.

OpenAI et Anthropic, eux, ne publient presque rien d'officiel sur l'énergie par requête : les valeurs pour GPT-4o, Claude ou DeepSeek proviennent de benchmarks indépendants (How Hungry is AI?, AI Energy Score de Hugging Face), reconstruits depuis les performances des API et les configurations matérielles probables. On raisonne donc en fourchettes, pas en mesures auditées - et la dispersion est elle-même le message : tant que les éditeurs ne publient pas, le choix du modèle reste le seul paramètre que l'utilisateur contrôle vraiment.

Un seul chiffre officiel par requête existe sur le marché : 0,24 Wh pour Gemini, mesuré par Google en production. Tout le reste sort de benchmarks indépendants, en fourchettes.

Pourquoi un tel écart entre les modèles ?

L'écart vient de trois variables qui se cumulent : la taille du modèle, le volume de tokens traités, et le fait que le modèle raisonne ou non avant de répondre. Les voici dans l'ordre.

La taille du modèle

Un modèle léger comme Haiku est conçu pour les tâches courantes : classification, résumé court, extraction de données. Il mobilise moins de paramètres, donc moins de calcul par token généré, donc moins d'énergie. Un modèle frontier comme Opus ou GPT-5 embarque beaucoup plus de paramètres : il raisonne mieux sur les tâches complexes, mais chaque token lui coûte davantage en watts. L'image est celle d'un moteur : on ne sort pas le V8 pour aller chercher le pain. À tâche égale, le saut d'un petit à un gros modèle multiplie déjà l'énergie par 10 à 50.

L'histoire des tokens

Toute la consommation se mesure en tokens, l'unité que l'IA manipule : un fragment de mot, environ 0,75 mot en français (un mot court comme « chat » fait un token, un mot long en compte plusieurs). Le modèle lit vos tokens d'entrée, puis fabrique ses tokens de réponse un par un, et chaque token produit consomme de l'électricité. L'énergie suit donc le nombre de tokens, surtout en sortie.

À modèle égal, un échange de 1 000 tokens en entrée et 1 000 en sortie consomme environ trois fois plus qu'un échange de 100 en entrée et 300 en sortie. Et un prompt de 100 000 tokens (environ 200 pages) atteint ~40 Wh, quelle que soit la marque. Ce n'est pas le nombre de questions qui pèse, c'est le volume de tokens traités.

Les modèles de raisonnement

C'est la vraie rupture. Un modèle de raisonnement (les o-series chez OpenAI, DeepSeek-R1) réfléchit à voix basse avant de répondre : il rédige d'abord un monologue interne que vous ne voyez pas, une suite de tokens où il déroule sa réflexion étape par étape (la « chaîne de pensée »), puis seulement ensuite il formule sa réponse. Ce brouillon invisible représente souvent 3 à 15 fois plus de tokens que la réponse finale. Comme chaque token consomme, ce surplus fait bondir la requête à 15-33 Wh, contre une fraction de Wh pour un petit modèle. À réserver aux questions qui le méritent vraiment, jamais par défaut.

Pour passer de ces ordres de grandeur à une estimation chiffrée sur votre propre usage, l'article sur l'énergie pour 1 000 tokens détaille la conversion étape par étape.

Pourquoi une requête consomme autant d'énergie ?

Ces Wh ne sortent pas de nulle part : ils correspondent à une chaîne matérielle bien réelle, du processeur jusqu'au réseau. La voici, maillon par maillon.

Du GPU au data center : ce que tire chaque maillon

Quatre maillons concentrent l'essentiel de la consommation - et le calcul proprement dit n'en est qu'une partie.

Le GPU - une puce de calcul haut de gamme (un NVIDIA H100) tire ~700 W à plein régime, autant qu'un radiateur d'appoint, sur quelques secondes par requête.
Le serveur - on en empile 8 par machine, soit 10 à 12 kW par serveur ; un cluster d'entraînement de 10 000 GPU peut atteindre 10 à 15 MW, la consommation d'une petite ville.
Le refroidissement - évacuer la chaleur consomme presque autant que le calcul dans les grandes installations, d'où la bascule vers le refroidissement liquide.
Le data center et le réseau - l'électricité du bâtiment, puis le transport de votre requête sur le réseau, ajoutent leur part à chaque échange, comme pour tout site internet.

Le vrai sujet est le volume mondial, pas la requête individuelle

À l'unité, une requête est dérisoire. Le poids environnemental de l'IA vient de l'agrégat. Quatre faits le résument :

1. L'inférence domine l'entraînement. L'usage représente ~63 % de l'énergie sur la vie d'un modèle frontier en 2026, contre 37 % pour l'entraînement. L'entraînement est ponctuel ; l'inférence se répète à chaque requête.
2. Le volume de tokens explose. Le nombre de tokens traités est projeté x24 entre 2026 et 2030 selon Goldman Sachs, tiré par les agents IA. Plus de tokens, c'est mécaniquement plus d'énergie - quel que soit le modèle.
3. L'électricité des data centers double en six ans. De ~415-485 TWh en 2024-2025 à ~950 TWh en 2030, soit ~3 % de l'électricité mondiale selon l'IEA, Energy and AI. Une croissance quatre fois plus rapide que les autres secteurs.
4. Le réseau électrique craque. Dans le monde, environ 20 % des projets de data centers risquent un retard de raccordement. La contrainte n'est plus le silicium, c'est le mégawatt.

Le volume de tokens traités dans le monde est projeté à x24 entre 2026 et 2030 : l'enjeu climatique de l'IA se joue sur le volume agrégé, pas sur la requête individuelle.

Quel modèle choisir pour quelle tâche ?

Le principe tient en deux mots : small is sufficient. Pour l'immense majorité des usages courants, un petit modèle fait le travail aussi bien qu'un gros, à une fraction de l'empreinte. Et l'enjeu n'a rien d'anecdotique : une étude académique d'octobre 2025 estime que généraliser le bon choix de modèle réduirait la consommation mondiale de l'IA de 27,8 %, soit 31,9 TWh sur l'année 2025 - l'équivalent de la production de cinq réacteurs nucléaires. Voici la règle, tâche par tâche.

Résumer un mail, rédiger un brouillon, classer, extraire, répondre à une question simple -> petit modèle (Haiku, Gemini Flash, GPT-4o) : ~0,2-0,4 Wh, 10 à 50 fois moins qu'un gros modèle.
Rédiger un texte travaillé, analyser un document -> modèle courant (Sonnet, Gemini Pro) : ~2,5-3 Wh, le bon compromis qualité / sobriété.
Analyse multicritère, code difficile, raisonnement long -> gros modèle (Opus) : ~4 Wh, à sortir quand la tâche le justifie vraiment.
Problème vraiment ardu où la chaîne de pensée est indispensable -> modèle de raisonnement (o-series, DeepSeek-R1) : ~15-33 Wh, jamais par défaut.

À l'échelle d'une organisation, ce choix se pilote comme n'importe quel poste d'achat : fixer un modèle léger par défaut dans les outils internes, réserver les modèles de raisonnement à des équipes identifiées, suivre les volumes de tokens consommés par service. Pour nous, au Projet Celsius, c'est le levier numérique au meilleur rapport effort/impact : il ne coûte rien, ne dégrade aucun usage, et forme le premier étage d'une politique de réduction, en complément d'une cartographie des usages numériques.

Deux réflexes complètent la règle. Réservez le raisonnement aux problèmes durs : activer un modèle de raisonnement sur une requête ordinaire gaspille énergie et argent pour rien. Et gardez vos prompts concis : moins de tokens en entrée comme en sortie, c'est mécaniquement moins d'énergie. Ce choix de modèle est aussi le point de départ pour mesurer et réduire l'IA dans son bilan carbone, où l'usage des services IA tiers se comptabilise en Scope 3, catégorie 1 - biens et services achetés, et où il faut savoir reporter l'IA dans la CSRD sans la noyer ni la gonfler.

Ce qu'il faut retenir

Le modèle compte plus que la marque : du plus sobre (~0,2 Wh) au raisonnement sur prompt long (~33 Wh), le même geste coûte jusqu'à 100 fois plus.
C'est le nombre de tokens traités qui décide, surtout en sortie : un prompt dix fois plus long peut tripler la consommation à modèle égal, et un prompt de 100 000 tokens atteint ~40 Wh.
Les chiffres sont des ordres de grandeur, pas des mesures auditées : Google publie une mesure (Gemini ~0,24 Wh), Mistral une ACV, le reste vient de benchmarks tiers - d'où le raisonnement en fourchettes.
Le vrai problème est le volume, pas votre requête : l'inférence domine l'entraînement (~63 %), le volume de tokens est projeté x24 d'ici 2030 et l'électricité des data centers double.
Réserver le bon modèle à la bonne tâche est le premier levier de sobriété : il divise l'empreinte par 5 à 10 et ne coûte rien à mettre en place.

Le réflexe à installer tient en une phrase : adapter le modèle au besoin, et non l'inverse. Pour situer ce que cet usage pèse à l'échelle d'une organisation, le panorama de l'empreinte carbone de l'IA le replace sous 1 % du bilan d'une PME, même en usage intensif - et un Bilan Carbone® d'entreprise le resitue parmi les postes qui pèsent vraiment.

Questions fréquemment posées

Quelle IA consomme le moins : ChatGPT, Claude ou Gemini ?

Aucune marque n'est sobre ou gourmande dans l'absolu : tout dépend du modèle. Une requête Gemini médiane tourne autour de 0,24 Wh (chiffre publié par Google), un GPT-4o autour de 0,43 Wh, et un modèle léger comme Claude Haiku se situe dans la même zone basse, vers 0,22 Wh. C'est le modèle choisi, pas le logo, qui décide.

Quelle IA pollue le plus ?

Ce sont les modèles de raisonnement (o-series d'OpenAI, DeepSeek-R1) sur des prompts longs : 15 à 33 Wh par requête, soit jusqu'à 100 fois plus qu'un petit modèle. La raison : ils génèrent un long monologue interne de tokens cachés avant de répondre. À l'inverse, les petits modèles et les requêtes courtes sont les plus sobres, quelle que soit la marque.

Qu'est-ce qu'un token et pourquoi est-ce l'unité qui compte ?

Un token est un fragment de mot : en français, environ 0,75 mot ou quatre caractères. Le modèle découpe votre texte en tokens, en lit (entrée) puis en produit (sortie), et chaque token généré consomme de l'électricité. C'est donc le volume de tokens traités, surtout en sortie, pas le nombre de requêtes, qui détermine la consommation.

L'IA est-elle vraiment un problème pour la planète ?

À l'unité, non : une requête courte consomme comme une recherche Google. Le problème vient du volume. L'inférence domine désormais l'entraînement (~63 % de l'énergie), le nombre de tokens traités est projeté x24 d'ici 2030, et l'électricité des data centers double en six ans pour atteindre ~3 % de l'électricité mondiale, au point de mettre le réseau sous tension.

Comment réduire mon empreinte IA ?

Le premier levier est le choix du modèle : réserver les petits modèles (Haiku, Gemini Flash, GPT-4o) aux tâches simples divise l'empreinte par 5 à 10 sans perte de qualité. Ensuite, n'activez les modèles de raisonnement que pour les problèmes vraiment durs, et gardez vos prompts concis : moins de tokens, moins d'énergie. Aucun de ces réflexes ne coûte un centime.

Pourquoi les éditeurs ne publient-ils pas leur consommation ?

Les éditeurs propriétaires comme OpenAI et Anthropic ne publient quasiment aucun chiffre officiel d'énergie ou d'eau par requête. Deux exceptions : Google, qui a mesuré une requête Gemini médiane en production (0,24 Wh), et Mistral, qui a publié une analyse de cycle de vie complète avec Carbone 4 et l'ADEME. Pour le reste, on dépend de benchmarks indépendants comme How Hungry is AI? ou le AI Energy Score de Hugging Face, d'où l'usage systématique de fourchettes.