Quelle IA pollue le moins : ChatGPT, Claude ou Gemini ?

Quelle IA pollue le moins : ChatGPT, Claude ou Gemini ?

À l'épreuve du réel, aucune marque n'est sobre ou gourmande en bloc : ChatGPT, Claude et Gemini hébergent chacun des modèles légers et des modèles lourds, et c'est le modèle activé plus le nombre de tokens générés qui font l'empreinte. Entre une requête courte sur un petit modèle et un prompt long sur un modèle de raisonnement, l'écart atteint un facteur 100. Voici les chiffres modèle par modèle, ce qui les explique, et quoi choisir pour quelle tâche, jusqu'à l'intégration dans votre bilan carbone.

On compare souvent ChatGPT, Claude et Gemini comme s'il s'agissait de marques de voiture, dont l'une serait sobre et l'autre énergivore. C'est la mauvaise grille de lecture. La consommation d'une requête ne dépend presque pas du logo en haut de la fenêtre : elle dépend du modèle que vous activez derrière, et du nombre de tokens qu'il génère. Entre une requête courte sur un petit modèle (~0,22 Wh) et un modèle de raisonnement lancé sur un prompt long (~33 Wh), l'énergie varie d'un facteur 100. Cet article donne les chiffres 2026, modèle par modèle, ce qui explique l'écart, et quoi choisir pour quelle tâche.

Quel modèle consomme le plus, et lequel le moins ?

Voici les ordres de grandeur d'une requête texte courante en 2026, du plus sobre au plus gourmand, avec le CO2 associé (qui dépend du pays du data center : ~50-60 g/kWh en France, ~400+ g/kWh aux États-Unis).

Pour fixer ces ordres de grandeur : une requête courte sur un modèle optimisé, c'est l'équivalent énergétique d'une recherche Google environ (le face-à-face avec Google démonte le mythe du x10), soit une ampoule LED allumée une à deux minutes. À l'unité, l'IA n'a rien d'un gouffre. Mais entre cette requête sobre et un modèle de raisonnement sur prompt long, le facteur dépasse 100. Cent fois, pour un geste qui semble identique : taper une question.

C'est précisément pourquoi un chiffre unique « par requête » ne veut pas dire grand-chose tant qu'on ne précise pas le modèle. Et la preuve tient en une seule famille de modèles : sur Claude, l'écart entre Haiku, le plus léger, et un modèle de raisonnement creuse déjà un facteur élevé à marque identique. Le modèle compte plus que le logo - et c'est une bonne nouvelle, car le modèle, contrairement au logo, se choisit à chaque requête.

Une précaution d'honnêteté s'impose sur la provenance de ces chiffres. Google est le seul éditeur à avoir publié une mesure de production : ~0,24 Wh et ~0,26 mL d'eau par requête médiane (étude d'août 2025). Mistral a publié de son côté la première analyse de cycle de vie complète d'un grand modèle, menée avec Carbone 4 et l'ADEME : ~1,14 g CO2e et ~45 mL d'eau par réponse de 400 tokens - un périmètre ACV bien plus large que la seule électricité du data center, donc non comparable terme à terme.

OpenAI et Anthropic, eux, ne publient presque rien d'officiel sur l'énergie par requête : les valeurs pour GPT-4o, Claude ou DeepSeek proviennent de benchmarks indépendants (How Hungry is AI?, AI Energy Score de Hugging Face), reconstruits depuis les performances des API et les configurations matérielles probables. On raisonne donc en fourchettes, pas en mesures auditées - et la dispersion est elle-même le message : tant que les éditeurs ne publient pas, le choix du modèle reste le seul paramètre que l'utilisateur contrôle vraiment.

Un seul chiffre officiel par requête existe sur le marché : 0,24 Wh pour Gemini, mesuré par Google en production. Tout le reste sort de benchmarks indépendants, en fourchettes.

Pourquoi un tel écart entre les modèles ?

L'écart vient de trois variables qui se cumulent : la taille du modèle, le volume de tokens traités, et le fait que le modèle raisonne ou non avant de répondre. Les voici dans l'ordre.

La taille du modèle

Un modèle léger comme Haiku est conçu pour les tâches courantes : classification, résumé court, extraction de données. Il mobilise moins de paramètres, donc moins de calcul par token généré, donc moins d'énergie. Un modèle frontier comme Opus ou GPT-5 embarque beaucoup plus de paramètres : il raisonne mieux sur les tâches complexes, mais chaque token lui coûte davantage en watts. L'image est celle d'un moteur : on ne sort pas le V8 pour aller chercher le pain. À tâche égale, le saut d'un petit à un gros modèle multiplie déjà l'énergie par 10 à 50.

L'histoire des tokens

Toute la consommation se mesure en tokens, l'unité que l'IA manipule : un fragment de mot, environ 0,75 mot en français (un mot court comme « chat » fait un token, un mot long en compte plusieurs). Le modèle lit vos tokens d'entrée, puis fabrique ses tokens de réponse un par un, et chaque token produit consomme de l'électricité. L'énergie suit donc le nombre de tokens, surtout en sortie.

À modèle égal, un échange de 1 000 tokens en entrée et 1 000 en sortie consomme environ trois fois plus qu'un échange de 100 en entrée et 300 en sortie. Et un prompt de 100 000 tokens (environ 200 pages) atteint ~40 Wh, quelle que soit la marque. Ce n'est pas le nombre de questions qui pèse, c'est le volume de tokens traités.

Les modèles de raisonnement

C'est la vraie rupture. Un modèle de raisonnement (les o-series chez OpenAI, DeepSeek-R1) réfléchit à voix basse avant de répondre : il rédige d'abord un monologue interne que vous ne voyez pas, une suite de tokens où il déroule sa réflexion étape par étape (la « chaîne de pensée »), puis seulement ensuite il formule sa réponse. Ce brouillon invisible représente souvent 3 à 15 fois plus de tokens que la réponse finale. Comme chaque token consomme, ce surplus fait bondir la requête à 15-33 Wh, contre une fraction de Wh pour un petit modèle. À réserver aux questions qui le méritent vraiment, jamais par défaut.

Pour passer de ces ordres de grandeur à une estimation chiffrée sur votre propre usage, l'article sur l'énergie pour 1 000 tokens détaille la conversion étape par étape.

Pourquoi une requête consomme autant d'énergie ?

Ces Wh ne sortent pas de nulle part : ils correspondent à une chaîne matérielle bien réelle, du processeur jusqu'au réseau. La voici, maillon par maillon.

Du GPU au data center : ce que tire chaque maillon

Quatre maillons concentrent l'essentiel de la consommation - et le calcul proprement dit n'en est qu'une partie.

Le vrai sujet est le volume mondial, pas la requête individuelle

À l'unité, une requête est dérisoire. Le poids environnemental de l'IA vient de l'agrégat. Quatre faits le résument :

Le volume de tokens traités dans le monde est projeté à x24 entre 2026 et 2030 : l'enjeu climatique de l'IA se joue sur le volume agrégé, pas sur la requête individuelle.

Quel modèle choisir pour quelle tâche ?

Le principe tient en deux mots : small is sufficient. Pour l'immense majorité des usages courants, un petit modèle fait le travail aussi bien qu'un gros, à une fraction de l'empreinte. Et l'enjeu n'a rien d'anecdotique : une étude académique d'octobre 2025 estime que généraliser le bon choix de modèle réduirait la consommation mondiale de l'IA de 27,8 %, soit 31,9 TWh sur l'année 2025 - l'équivalent de la production de cinq réacteurs nucléaires. Voici la règle, tâche par tâche.

À l'échelle d'une organisation, ce choix se pilote comme n'importe quel poste d'achat : fixer un modèle léger par défaut dans les outils internes, réserver les modèles de raisonnement à des équipes identifiées, suivre les volumes de tokens consommés par service. Pour nous, au Projet Celsius, c'est le levier numérique au meilleur rapport effort/impact : il ne coûte rien, ne dégrade aucun usage, et forme le premier étage d'une politique de réduction, en complément d'une cartographie des usages numériques.

Deux réflexes complètent la règle. Réservez le raisonnement aux problèmes durs : activer un modèle de raisonnement sur une requête ordinaire gaspille énergie et argent pour rien. Et gardez vos prompts concis : moins de tokens en entrée comme en sortie, c'est mécaniquement moins d'énergie. Ce choix de modèle est aussi le point de départ pour mesurer et réduire l'IA dans son bilan carbone, où l'usage des services IA tiers se comptabilise en Scope 3, catégorie 1 - biens et services achetés, et où il faut savoir reporter l'IA dans la CSRD sans la noyer ni la gonfler.

Ce qu'il faut retenir

Le réflexe à installer tient en une phrase : adapter le modèle au besoin, et non l'inverse. Pour situer ce que cet usage pèse à l'échelle d'une organisation, le panorama de l'empreinte carbone de l'IA le replace sous 1 % du bilan d'une PME, même en usage intensif - et un Bilan Carbone® d'entreprise le resitue parmi les postes qui pèsent vraiment.

Questions fréquemment posées

Quelle IA consomme le moins : ChatGPT, Claude ou Gemini ?

Aucune marque n'est sobre ou gourmande dans l'absolu : tout dépend du modèle. Une requête Gemini médiane tourne autour de 0,24 Wh (chiffre publié par Google), un GPT-4o autour de 0,43 Wh, et un modèle léger comme Claude Haiku se situe dans la même zone basse, vers 0,22 Wh. C'est le modèle choisi, pas le logo, qui décide.

Quelle IA pollue le plus ?

Ce sont les modèles de raisonnement (o-series d'OpenAI, DeepSeek-R1) sur des prompts longs : 15 à 33 Wh par requête, soit jusqu'à 100 fois plus qu'un petit modèle. La raison : ils génèrent un long monologue interne de tokens cachés avant de répondre. À l'inverse, les petits modèles et les requêtes courtes sont les plus sobres, quelle que soit la marque.

Qu'est-ce qu'un token et pourquoi est-ce l'unité qui compte ?

Un token est un fragment de mot : en français, environ 0,75 mot ou quatre caractères. Le modèle découpe votre texte en tokens, en lit (entrée) puis en produit (sortie), et chaque token généré consomme de l'électricité. C'est donc le volume de tokens traités, surtout en sortie, pas le nombre de requêtes, qui détermine la consommation.

L'IA est-elle vraiment un problème pour la planète ?

À l'unité, non : une requête courte consomme comme une recherche Google. Le problème vient du volume. L'inférence domine désormais l'entraînement (~63 % de l'énergie), le nombre de tokens traités est projeté x24 d'ici 2030, et l'électricité des data centers double en six ans pour atteindre ~3 % de l'électricité mondiale, au point de mettre le réseau sous tension.

Comment réduire mon empreinte IA ?

Le premier levier est le choix du modèle : réserver les petits modèles (Haiku, Gemini Flash, GPT-4o) aux tâches simples divise l'empreinte par 5 à 10 sans perte de qualité. Ensuite, n'activez les modèles de raisonnement que pour les problèmes vraiment durs, et gardez vos prompts concis : moins de tokens, moins d'énergie. Aucun de ces réflexes ne coûte un centime.

Pourquoi les éditeurs ne publient-ils pas leur consommation ?

Les éditeurs propriétaires comme OpenAI et Anthropic ne publient quasiment aucun chiffre officiel d'énergie ou d'eau par requête. Deux exceptions : Google, qui a mesuré une requête Gemini médiane en production (0,24 Wh), et Mistral, qui a publié une analyse de cycle de vie complète avec Carbone 4 et l'ADEME. Pour le reste, on dépend de benchmarks indépendants comme How Hungry is AI? ou le AI Energy Score de Hugging Face, d'où l'usage systématique de fourchettes.