Un projet récent d’Andrej Karpathy, ancien directeur de l’IA chez Tesla et fondateur d’OpenAI, a discrètement exposé une couche critique, encore indéfinie, des logiciels modernes : le middleware d’orchestration entre les applications d’entreprise et les modèles d’IA en évolution rapide. Surnommée « LLM Council », cette expérience du week-end démontre que le routage et l’agrégation des modèles d’IA sont étonnamment simples, mais que la véritable complexité réside dans leur préparation pour l’entreprise.
L’essor de l’orchestration de l’IA
Pour les décideurs techniques, le projet « vibe code » de Karpathy n’est pas qu’un jouet ; il s’agit d’un modèle de la manière dont les entreprises aborderont les investissements dans les infrastructures d’IA en 2026. L’idée de base est simple : au lieu de s’appuyer sur des solutions d’IA uniques et propriétaires, les entreprises peuvent intégrer plusieurs modèles (GPT-5.1, Gemini 3.0 Pro, Claude Sonnet 4.5, Grok 4) dans un système qui débat, critique et synthétise les réponses. Cette approche offre de la flexibilité et évite le verrouillage du fournisseur.
Comment fonctionne le Conseil LLM : AI juge l’IA
Le Conseil LLM fonctionne en trois étapes :
- Génération parallèle : la requête d’un utilisateur est envoyée simultanément à plusieurs modèles d’IA.
- Évaluation par les pairs : Chaque modèle critique les réponses de ses pairs, imposant un niveau de contrôle qualité rare dans les chatbots standards.
- Synthèse : Un « Chairman LLM » désigné (actuellement Gemini 3) combine les réponses et les classements en une réponse finale faisant autorité.
Karpathy a constaté que les modèles privilégiaient souvent les réponses des autres par rapport aux leurs, mettant en évidence un biais potentiel en faveur de la verbosité et de styles rhétoriques spécifiques. Cela soulève une question clé : l’IA peut-elle juger l’IA de manière fiable sans s’aligner sur les besoins humains de concision et d’exactitude ?
L’architecture technique : minimaliste mais efficace
Le LLM Council est construit sur une pile « fine » : FastAPI (framework Python), React/Vite (frontend) et des fichiers JSON pour le stockage des données. Le pivot est OpenRouter, un agrégateur d’API qui normalise les requêtes entre les fournisseurs de modèles. Cela permet au système d’échanger des modèles en éditant une seule ligne de code, le protégeant ainsi du verrouillage du fournisseur.
Cette approche suggère une tendance croissante : traiter les modèles frontières comme des composants échangeables plutôt que comme des dépendances monolithiques. Si Meta ou Mistral sort un modèle supérieur la semaine prochaine, il pourra être intégré en quelques secondes.
Les pièces manquantes : sécurité, conformité et fiabilité
Bien que la logique de base soit élégante, LLM Council manque de fonctionnalités d’entreprise essentielles : authentification, rédaction des informations personnelles, contrôles de conformité et gestion robuste des erreurs. Ces absences définissent la proposition de valeur pour les fournisseurs commerciaux d’infrastructures d’IA comme LangChain et AWS Bedrock. Ils vendent le « renforcement » autour de la logique de base : les enveloppes de sécurité, d’observabilité et de conformité qui transforment un script brut en une plate-forme viable.
Le code de Karpathy démontre que le défi technique ne réside pas dans le routage des invites ; il s’agit de gouverner les données et de garantir une fiabilité de niveau entreprise.
L’avenir du code : éphémère et généré par l’IA
La déclaration provocatrice de Karpathy selon laquelle « le code est désormais éphémère et les bibliothèques sont terminées » suggère un changement radical. Au lieu de maintenir des outils internes rigides, les ingénieurs peuvent générer des solutions personnalisées et jetables avec l’aide de l’IA. Cela soulève une question stratégique : les entreprises doivent-elles acheter des suites logicielles coûteuses ou permettre aux ingénieurs de créer des outils sur mesure à une fraction du coût ?
Le problème de l’alignement : jugement machine contre jugement humain
L’expérience du LLM Council souligne un risque critique : la divergence entre l’IA et le jugement humain. Si les évaluateurs d’IA récompensent les réponses verbeuses et tentaculaires alors que les clients veulent des solutions concises, les mesures montreront le succès tandis que la satisfaction chutera. S’appuyer uniquement sur l’IA pour évaluer l’IA est une stratégie semée d’embûches d’alignement cachées.
En conclusion, le hack du week-end de Karpathy démystifie l’orchestration de l’IA, prouvant que la fonctionnalité principale est à portée de main. Le véritable défi réside dans la création de la couche de gouvernance : la sécurité, la conformité et la fiabilité qui transforment un script brut en une plateforme de niveau entreprise. La question pour les leaders technologiques n’est pas de savoir s’il faut intégrer l’IA, mais comment apprivoiser son potentiel sauvage grâce à une ingénierie responsable.
