Techniques · Apprentissage machine

IA adaptative dans DIKTAT — Apprentissage, décisions et équilibre

Comprendre les 5 phases de l'apprentissage adaptatif : collecte, simulation, entraînement, intégration et ajustement. Comment l'IA progresse sans créer d'avantage pay-to-win.

1er juillet 2026 Équipe Dek-Ret-O Lecture : 10 min

Introduction : Pourquoi une IA adaptative dans DIKTAT ?

Un des objectifs fondateurs de DIKTAT est de proposer une expérience de jeu profonde, stratégique et équitable. Vous jouez contre l'IA ou en multijoueur, mais dans les deux cas, vous voulez que vos adversaires prennent les meilleures décisions possibles. Or, une IA qui joue toujours de la même façon devient prévisible et facilement battable. C'est pourquoi nous avons mis en place un système d'apprentissage adaptatif : une IA qui apprend de chaque partie, analyse les décisions humaines et s'améliore progressivement, tout en restant équitable et non "pay-to-win".

Dans cet article, nous expliquons comment ce système fonctionne, dans quels contextes il s'active, et comment nous garantissons la transparence et la fairness.

Phase 1 : Collecte des décisions humaines (Fire-and-Forget)

Lors d'une partie en ligne multijoueur, chaque coup que vous jouez est enregistré de façon asynchrone dans la base de données. Pas d'impact sur votre expérience : c'est du "fire-and-forget", aucun temps d'attente supplémentaire. Nous récoltons :

  • État du jeu : votre main, la composition du Livre des Lois, les jetons des autres joueurs, le tour et la phase actuelle.
  • Votre décision : la carte que vous avez jouée, la cible choisie, le timing du veto.
  • Outcome : quel joueur a gagné, en combien de tours, la trajectoire des PI.

Cet enregistrement est gâté par la variable d'environnement AI_LEARNING_ENABLED. Si elle est désactivée, aucune collecte n'a lieu (utile pour les tests ou les déploiements privés). En production, on l'active seulement pour les parties "publiques" (pas de tournoi ou test interne), pour éviter de "polluer" l'entraînement avec des données anormales.

Phase 2 : Simulation et Test (Batch Hors-ligne)

Une fois que nous avons accumulé suffisamment de données (ex : 500+ parties), nous lançons un "batch" de simulation. Ici, nous prenons les décisions enregistrées et nous les "rejouons" dans des scénarios variés, en combinant différent mix d'IA et d'humains, pour vérifier que les décisions humaines étaient effectivement stratégiquement bonnes et cohérentes.

Phase 3 : Entraînement du modèle adaptatif (Gradient Descent)

Une fois que les données sont validées, nous utilisons un algorithme de régression linéaire avec régularisation L2 (Ridge regression) pour entraîner les poids de l'IA. Le modèle associe un "score" à chaque décision possible, en fonction de l'état du jeu. Chaque poids est initialisé aléatoirement, puis optimisé pour minimiser l'écart entre les scores prédits et les outcomes réels.

Phase 4 : Intégration hybride (Alpha Blending)

Plutôt que de remplacer entièrement l'ancienne heuristique par la nouvelle IA, nous utilisons un mécanisme d'alpha blending. Le paramètre alpha commence à 0.8 (80% ancienne IA, 20% nouveau modèle) et décroît progressivement vers 0.2 à travers plusieurs semaines de déploiement. Cela permet de détecter rapidement si le nouveau modèle a des bugs et de rollback facilement s'il y a un problème.

Phase 5 : Ajustement temporel et Profil humain

Au fil du temps, nous observons aussi que différents profils de joueurs ont des "tempos" différents : certains jouent très vite (< 5 sec par tour), d'autres prennent leur temps (30+ sec). Une bonne IA adaptative doit aussi s'adapter à ce rythme, pour rester réaliste.

Garanties de fairness et transparence

Q : L'IA peut-elle "tricher" ou être "pay-to-win" ? R : Non. L'IA n'a accès qu'aux mêmes informations que vous, ne joue pas plus vite ou plus lentement que le timing humain, et les mêmes règles s'appliquent à tous.

Q : Mes données sont-elles vendues ou partagées ? R : Non. Ces données restent confidentielles et sont utilisées UNIQUEMENT pour entraîner l'IA interne.

Conclusion

L'IA adaptative de DIKTAT n'est pas "magique" — c'est un système d'apprentissage machine transparent, auditable et équitable. Vous jouez contre une IA qui s'améliore au fil du temps, mais toujours dans les règles et jamais au détriment de votre expérience.