Qu'est-ce que DIKTAT ?

DIKTAT est un jeu de cartes strategique multijoueur en ligne et gratuit, jouable de 3 a 6 joueurs. Le but est d'accumuler le plus d'influence en creant des lois, en organisant des complots, en gerant ses jetons (Bronze, Argent, Or) et en posant des vetos pour neutraliser les actions adverses.

Comment se calcule l'influence (PI) dans DIKTAT ?

Les Points d'Influence se calculent ainsi : 1 jeton de Bronze vaut 1 PI, 1 jeton d'Argent vaut 4 PI, et 1 jeton d'Or vaut 15 PI. Le joueur qui maintient le plus haut total a la fin de la partie remporte la victoire.

Quelles sont les phases d'un tour ?

Chaque tour comporte 5 phases successives : REVENUS (collecte des revenus), PIOCHE (tirage de cartes), ACTION (jouer Proposition / Complot / Ressources), BANQUE (conversion de jetons) et CLOTURE (resolution de fin de tour, lois conditionnelles, remboursements d'emprunts).

Quels sont les types de cartes ?

Il existe 4 types de cartes : PROPOSITION (creer une loi qui s'appliquera a tous), COMPLOT (attaquer un adversaire : OPA Hostile, Faillite, Decret Executif, Speculation, Controle des Changes), RESSOURCES (Revenu de Base, Emprunt, Speculation Mineure) et VETO (annuler une action adverse).

Comment gagner une partie de DIKTAT ?

Quatre conditions de victoire existent : etre le dernier joueur non elimine, monopoliser tous les jetons d'Or de la banque, vider la pioche, ou vider completement les jetons de la banque. La victoire est evaluee en fin de tour.

Faut-il payer pour jouer a DIKTAT ?

Non, DIKTAT est entierement gratuit. Le mode multijoueur, le solo contre des bots, le tutoriel, le classement et toutes les regles sont accessibles sans paiement. Des packs cosmetiques optionnels sont disponibles pour les joueurs qui souhaitent soutenir le projet.

IA adaptative dans DIKTAT : apprentissage et équilibre

Introduction : Pourquoi une IA adaptative dans DIKTAT ?

Un des objectifs fondateurs de DIKTAT est de proposer une expérience de jeu profonde, stratégique et équitable. Vous jouez contre l'IA ou en multijoueur, mais dans les deux cas, vous voulez que vos adversaires prennent les meilleures décisions possibles. Or, une IA qui joue toujours de la même façon devient prévisible et facilement battable. C'est pourquoi nous avons mis en place un système d'apprentissage adaptatif : une IA qui apprend de chaque partie, analyse les décisions humaines et s'améliore progressivement, tout en restant équitable et non "pay-to-win".

Dans cet article, nous expliquons comment ce système fonctionne, dans quels contextes il s'active, et comment nous garantissons la transparence et la fairness.

Phase 1 : Collecte des décisions humaines (Fire-and-Forget)

Lors d'une partie en ligne multijoueur, chaque coup que vous jouez est enregistré de façon asynchrone dans la base de données. Pas d'impact sur votre expérience : c'est du "fire-and-forget", aucun temps d'attente supplémentaire. Nous récoltons :

État du jeu : votre main, la composition du Livre des Lois, les jetons des autres joueurs, le tour et la phase actuelle.
Votre décision : la carte que vous avez jouée, la cible choisie, le timing du veto.
Outcome : quel joueur a gagné, en combien de tours, la trajectoire des PI.

Cet enregistrement est gâté par la variable d'environnement AI_LEARNING_ENABLED. Si elle est désactivée, aucune collecte n'a lieu (utile pour les tests ou les déploiements privés). En production, on l'active seulement pour les parties "publiques" (pas de tournoi ou test interne), pour éviter de "polluer" l'entraînement avec des données anormales.

Phase 2 : Simulation et Test (Batch Hors-ligne)

Une fois que nous avons accumulé suffisamment de données (ex : 500+ parties), nous lançons un "batch" de simulation. Ici, nous prenons les décisions enregistrées et nous les "rejouons" dans des scénarios variés, en combinant différent mix d'IA et d'humains, pour vérifier que les décisions humaines étaient effectivement stratégiquement bonnes et cohérentes.

Phase 3 : Entraînement du modèle adaptatif (Gradient Descent)

Une fois que les données sont validées, nous utilisons un algorithme de régression linéaire avec régularisation L2 (Ridge regression) pour entraîner les poids de l'IA. Le modèle associe un "score" à chaque décision possible, en fonction de l'état du jeu. Chaque poids est initialisé aléatoirement, puis optimisé pour minimiser l'écart entre les scores prédits et les outcomes réels.

Phase 4 : Intégration hybride (Alpha Blending)

Plutôt que de remplacer entièrement l'ancienne heuristique par la nouvelle IA, nous utilisons un mécanisme d'alpha blending. Le paramètre alpha commence à 0.8 (80% ancienne IA, 20% nouveau modèle) et décroît progressivement vers 0.2 à travers plusieurs semaines de déploiement. Cela permet de détecter rapidement si le nouveau modèle a des bugs et de rollback facilement s'il y a un problème.

Phase 5 : Ajustement temporel et Profil humain

Au fil du temps, nous observons aussi que différents profils de joueurs ont des "tempos" différents : certains jouent très vite (< 5 sec par tour), d'autres prennent leur temps (30+ sec). Une bonne IA adaptative doit aussi s'adapter à ce rythme, pour rester réaliste.

Garanties de fairness et transparence

Q : L'IA peut-elle "tricher" ou être "pay-to-win" ? R : Non. L'IA n'a accès qu'aux mêmes informations que vous, ne joue pas plus vite ou plus lentement que le timing humain, et les mêmes règles s'appliquent à tous.

Q : Mes données sont-elles vendues ou partagées ? R : Non. Ces données restent confidentielles et sont utilisées UNIQUEMENT pour entraîner l'IA interne.

Conclusion

L'IA adaptative de DIKTAT n'est pas "magique" — c'est un système d'apprentissage machine transparent, auditable et équitable. Vous jouez contre une IA qui s'améliore au fil du temps, mais toujours dans les règles et jamais au détriment de votre expérience.