Vous rêvez d'IA, mais sans la respecter (le syndrome C-3PO)

Didier Sampaolo
[9] Vous rêvez d'IA, mais sans la respecter (le syndrome C-3PO)

Il y a un malentendu avec l'intelligence artificielle en ce moment. Tout le monde veut en mettre partout. Mais au fond, personne ne la respecte.

En tant que dirigeant, vous êtes un peu le Han Solo de votre entreprise : votre quotidien consiste à slalomer entre les astéroïdes (le marché, la concurrence, la pression des marges) pour faire tourner la boutique et livrer votre valeur. Et quand ça chauffe, face à l'Empire de la dette technique ou des lourdeurs administratives, vous devez pouvoir compter sur un vaisseau qui répond au quart de tour.

Dans cet univers, deux types de robots vont pouvoir vous aider.

  • les droïdes protocolaires, comme C-3PO. Ils "maîtrisent 6 millions de formes de communication". Ils sont polis, éloquents, dorés, et de forme humaine : c'est un peu le gendre idéal, version robot.
  • les droïdes astro-mécano, comme R2-D2. Ce sont plus ou moins des boîtes de conserve sur lesquelles on a soudé un tournevis, et qui ne communiquent que par bips stridents : ils ne font rêver personne.

Dans Star Wars, quand un hyperdrive tombe en panne, C-3PO panique, brasse du vent, et tire tout le monde vers le bas. Pendant ce temps, R2-D2 est déjà en train de souder la pièce de remplacement pour faire repartir le vaisseau.

Aujourd'hui, parce que ChatGPT nous a éblouis avec son côté conversationnel, toutes les entreprises veulent à tout prix "faire de l'IA", quitte à embaucher des C-3PO pour gérer la salle des machines.

C'est le piège de l'anthropomorphisme : on projette des qualités humaines sur une machine parce qu'elle parle bien. On prend le modèle cognitif synthétique le plus complexe jamais créé, et on lui file un bullshit job : lire un fichier Excel de 200 000 lignes ou deviner où est-ce que Chantal a bien pu ranger tel document dans un drive bordélique.

Si vous considérez les LLMs (ces grands modèles de langage comme GPT, Claude ou Mistral) comme des cerveaux numériques, alors respectez-les. Arrêtez de leur confier le travail ingrat. L'efficacité opérationnelle, ça ne consiste pas à coller une baguette magique "IA" sur un processus foireux. Ça consiste à décortiquer ce processus, à le cartographier, et à assigner la bonne tâche à la bonne machine.

Le mirage des agents : quand C-3PO prend les commandes

L'approche à la mode, c'est de créer un agent IA (un LLM autonome qui peut décider d'actions à effectuer), de lui brancher 15 outils (accès aux mails, au CRM, aux bases de données) et de le laisser se débrouiller. Notre C-3PO aux commandes du Faucon Millenium.

C'est séduisant sur une démo. Mais en production, avec l'Empire au derche, c'est un autre film.

Le problème porte un nom que les chercheurs connaissent bien : la sycophancy (flatterie). Face à un obstacle, un LLM préfère vous inventer une réponse plausible (ce qu'on appelle une hallucination) plutôt que d'avouer qu'il ne sait pas. Il vous dit ce que vous voulez entendre. Exactement comme C-3PO qui panique dès que ça chauffe.

Ça vient notamment du fait que les grands modèles de langage sont en partie entraînés par RLHF (Reinforcment Learning from Human Feedback) : on demande à des humains de noter les sorties, et on produira plus facilement celle qui a plu. On avance vers un consensus, et les humains adorent qu'on leur donne raison.

Empilons des agents !

Alors, pour compenser, la nouvelle tendance est au multi-agents : on crée 5 petits LLMs qui discutent entre eux pour se découper les tâches et vérifier mutuellement leur travail. Sur le papier, ça ressemble à un comité d'experts. En pratique, vous venez de créer une usine à gaz probabiliste qui joue au téléphone arabe. Chaque couche d'IA rajoute de l'incertitude au lieu d'en retirer.

En gros, dans notre hangar, on a 50 C-3PO qui se surveillent les uns les autres. On compte sur eux pour savoir quel outil utiliser, quand, et comment. Je vous laisse imaginer le bordel : chez les humains, le pendant, ce sont les réunions où tout le monde "veut faire" mais où personne ne "sait faire". Même avec de gros budgets et toute la bonne volonté du monde, on finit souvent par taper à côté.

Ce décalage entre la promesse magique et la réalité du terrain n'est pas qu'une impression. Des chercheurs de l'INSEAD ont formalisé ce problème sous le nom de mapping problem : la difficulté à faire correspondre les capacités réelles d'une technologie avec le besoin métier concret. La plupart des échecs de projets IA en entreprise ne viennent pas d'un mauvais modèle, mais d'un mauvais casting.

Un système fiable, c'est (presque) tout sauf de l'IA

Les (trop rares) entreprises qui obtiennent des résultats concrets avec l'IA aujourd'hui déploient des architectures beaucoup plus "carrées". Le secret est presque décevant : c'est de l'ingénierie logicielle classique, avec une pincée d'IA au bon endroit.

  • Le code déterministe fait le gros du travail (les R2-D2). Lire 200 000 lignes d'Excel, calculer une marge, extraire une donnée d'un CRM : c'est le boulot d'un script Python ou d'une API. C'est instantané, ça ne coûte quasiment rien, et surtout c'est 100 % fiable. Pas d'hallucination possible quand du code fait une addition.
  • Le RAG remplace l'entraînement sur mesure. Le RAG (Retrieval-Augmented Generation), c'est l'idée de donner au LLM un "examen à livre ouvert" plutôt que de lui faire apprendre toute votre entreprise par cœur. Au lieu de dépenser une fortune en fine-tuning (le réentraînement d'un modèle sur vos données), un script R2-D2 va chercher le bon document, le transmet au LLM et lui dit : "résume ça". Le modèle travaille avec un contexte précis au lieu de puiser dans sa mémoire floue.
  • Des rails en code strict dirigent le flux (les machines à états). Le chef d'orchestre ne doit jamais être une IA. Ce rôle revient à des graphes de décision, du code déterministe qui dicte le parcours. L'IA n'est qu'un moteur qui s'allume à une station précise du circuit pour accomplir une micro-tâche (traduire, reformuler, classer un sentiment), avant de laisser le code reprendre les commandes du vaisseau.

En résumé : le code agit, la donnée fournit le contexte, le LLM est la voix, et un excellent traducteur de chaos. Dans la vraie vie, la donnée n'est pas toujours propre pour R2-D2. C-3PO est indispensable pour lire un PDF scanné de travers, comprendre un email de réclamation bourré de fautes, en extraire un JSON propre, et ensuite le donner à R2-D2 pour qu'il le mette dans le CRM. Le LLM excelle dans l'interface entre le monde réel (désordonné) et le monde informatique (structuré). D'où l'intérêt de parler 6 millions de langues ;)

Cherchez ceux qui ouvrent les portes

La révolution dans votre entreprise ne viendra pas de la prochaine mise à jour d'OpenAI ou de la sortie du dernier modèle d'Anthropic. Elle viendra de votre capacité à repenser vos processus internes pour marier la rigueur du code avec la flexibilité de l'IA générative.

Ça demande un travail d'architecture, pas de magie. Identifier ce qui relève du déterministe, ce qui relève du probabiliste, et tracer la frontière entre les deux. Cartographier tout ça (le fameux "qui fait quoi" entre vos scripts, vos bases de données et les LLMs), c'est le vrai défi.

C'est bien moins spectaculaire qu'une démo d'agent autonome sur Twitter, mais c'est la seule chose qui tient en production. Ne vous laissez pas aveugler par ceux qui parlent bien. Cherchez ceux qui réparent l'hyperpropulsion."

Faisons un test

Répondez simplement à cet email avec la tâche la plus ingrate, répétitive ou chronophage que vos équipes (ou vous-même) allez devoir faire cette semaine. Pas besoin d'y mettre les formes.

Je vous dirai en retour (et en toute franchise) si c'est un job pour un R2-D2 (du code pur), pour un C-3PO (une IA), ou si c'est un processus qu'il faut repenser à la source.

Et si vous avez besoin d'un bon mécano pour vous aider à passer en vitesse lumière sans faire péter le vaisseau, vous savez où me trouver.