Cytopia 2026

L’IA moderne ne sait pas résoudre le Sudoku : analyse des limites de l’induction statistique et de l’avenir neuro-symbolique

Hugues Wattez

mardi 12 mai 2026

Introduction

  • Les LLM sont devenus des outils d’aide à la décision, mais ils ne doivent pas remplacer l’esprit critique
  • Le Sudoku sert ici d’exemple simple et parlant pour montrer leurs limites
  • L’idée centrale : face à un problème inédit, un modèle statistique peut produire une réponse assurée sans garantie de validité
  • Le fil de la présentation suit quatre étapes :
    1. histoire de l’IA
    2. introduction à la logique
    3. expériences sur Sudoku
    4. perspective neuro-symbolique

Le penseur sceptique face à tous ces LLM – Photo originale Wikipedia

Brève histoire

De 1950 à 1980, le paradigme symbolique domine : l’intelligence est vue comme une manipulation de symboles et de règles

  • Atouts : peu d’exemples, représentation déclarative, raisonnement lisible.
  • Limites : fragilité au bruit, ambiguïté, dépendance à des règles définies par des experts.

À la fin des années 1980, le connexionnisme prend de l’ampleur : inspiration depuis les réseaux de neurones du cerveau humain

  • Atout : généralisent mieux sur des tâches perceptives ou langagières :
  • Limites : besoin massif de données, faible explicabilité, difficulté à produire un raisonnement logique stable.

L’IA neuro-symbolique apparaît ensuite comme une tentative de combiner apprentissage statistique et raisonnement déductif.

Logique et inférence : introduction

La déduction va du général au particulier : si les prémisses sont vraies, la conclusion l’est nécessairement.

flowchart LR
  A["Tous les hommes sont mortels"] --> P{"Déduction"}
  B["Socrate est un homme"] --> P
  P --> C["Socrate est mortel"]

L’induction va du particulier au général : elle propose une règle, sans certitude absolue.

flowchart LR
  A["Socrate est mortel"] --> P{"Induction"}
  B["Platon est mortel"] --> P
  C["..."] --> P
  D["Andreas est mortel"] --> P
  P --> E["Tous les hommes sont mortels"]

L’abduction part d’un fait surprenant pour proposer l’hypothèse la plus plausible.

flowchart LR
  A["Tous les hommes sont mortels"] --> P{"Abduction"}
  B["Socrate est mortel"] --> P
  P --> C["Socrate est un homme"]

Logique et inférence : application


L’application des précédents termes à notre problématique :

  • le Sudoku exige surtout une chaîne déductive rigoureuse, pas seulement une reconnaissance de régularités ;
  • les LLM actuels restent surtout proches d’un fonctionnement inductif : ils complètent des séquences probables plutôt qu’ils n’appliquent des règles formelles.

Sudoku

Le Sudoku classique consiste à remplir une grille \(9×9\) pour que chaque ligne (Figure 1), colonne (Figure 2) et bloc \(3×3\) (Figure 3) contienne les chiffres de \(1\) à \(9\).

2 1 8 | 3 9 4 | 6 7 5
. . . | . . . | . . .
. . . | . . . | . . .
------+-------+------
. . . | . . . | . . .
. . . | . . . | . . .
. . . | . . . | . . .
------+-------+------
. . . | . . . | . . .
. . . | . . . | . . .
. . . | . . . | . . .
Figure 1
2 . . | . . . | . . .
9 . . | . . . | . . .
4 . . | . . . | . . .
------+-------+------
6 . . | . . . | . . .
7 . . | . . . | . . .
8 . . | . . . | . . .
------+-------+------
1 . . | . . . | . . .
3 . . | . . . | . . .
5 . . | . . . | . . .
Figure 2
2 1 8 | . . . | . . .
9 7 3 | . . . | . . .
4 6 5 | . . . | . . .
------+-------+------
. . . | . . . | . . .
. . . | . . . | . . .
. . . | . . . | . . .
------+-------+------
. . . | . . . | . . .
. . . | . . . | . . .
. . . | . . . | . . .
Figure 3
  • Il faut distinguer le problème (général) du Sudoku et une instance particulière, c’est-à-dire une grille donnée à résoudre.
  • Certaines instances sont simples, d’autres nécessitent des techniques avancées comme le X-Wing.

Résoudre une grille donnée n’implique pas savoir résoudre génériquement toutes les instances du problème.

Expérience instance simple (Cytopia)


. 1 8 | . . . | . 7 .
. 7 . | . . 1 | 9 . .
. 6 . | 8 5 . | 1 2 .
------+-------+------
6 . . | 7 . . | 3 . .
7 . . | 5 1 . | . 8 .
8 . 4 | . . 9 | 7 . 5
------+-------+------
. 4 7 | . 9 8 | . 5 .
. . 2 | 6 . 5 | . 3 .
. . 6 | . . . | 2 4 .

Instance donnée aux LLM.

5 1 8 | 9 2 4 | 6 7 3
2 7 3 | 4 6 1 | 9 0 8 🛑
. . . | . . . | . . .
------+-------+------
. . . | . . . | . . .
. . . | . . . | . . .
. . . | . . . | . . .
------+-------+------
. . . | . . . | . . .
. . . | . . . | . . .
. . . | . . . | . . .

ChatGPT produit aussi une réponse incorrecte et finit par interrompre la complétion de la grille.

2 1 8 | 9 6 3 | 5 7 4
5 7 3 | 2 4 1 | 9 6 8
4 6 9 | 8 5 7 | 1 2 3
------+-------+------
6 5 1 | 7 8 4 | 3 9 2
7 9 3 | 5 1 2 | 4 8 6
8 2 4 | 3 6 9 | 7 1 5
------+-------+------
3 4 7 | 1 9 8 | 6 5 2
1 8 2 | 6 7 5 | 4 3 9
9 3 6 | 4 2 1 | 2 4 7 ‼️

Gemini 3 Rapide renvoie une grille erronée, avec une incohérence dans la dernière ligne.

4 1 8 | 9 2 6 | 5 7 3
2 7 5 | 4 3 1 | 9 6 8
9 6 3 | 8 5 7 | 1 2 4
------+-------+------
6 5 1 | 7 8 4 | 3 9 2
7 3 9 | 5 1 2 | 4 8 6
8 2 4 | 3 6 9 | 7 1 5
------+-------+------
3 4 7 | 2 9 8 | 6 5 1
1 9 2 | 6 4 5 | 8 3 7
5 8 6 | 1 7 3 | 2 4 9 ✅

Gemini 3 Pro réussit l’instance simple, grâce à un raisonnement étendu type chaîne de pensée.

Ce test montre qu’un modèle plus puissant peut réussir un cas simple, sans pour autant disposer d’un solveur logique robuste.

Expérience instance dure (Cytopia)

Résolution d’un Sudoku difficile par Gemini 3 pro (raisonnement) :

  • instance nécessitant l’usage d’un Y-Wing pour la résoudre
  • le temps de raisonnement a doublé pour obtenir ce résultat (~3 minutes).
. . . | . 3 . | . . 6
. 1 . | . 5 . | . . .
. . . | . . 9 | 4 . 3
------+-------+------
8 . . | . . . | 5 . .
. . 4 | . . 2 | 1 . 7
6 . 5 | . . . | . . 4
------+-------+------
1 . 9 | 3 . . | . . .
. . . | . 4 . | . 3 .
4 . 2 | . 8 1 | . . .

Instance donnée au LLM.

7 4 8 | 2 3 1 | 9 5 6
2 1 3 | 8 5 6 | 7 4 9
5 9 6 | 7 2 9 | 4 1 3
------+-------+------
8 2 1 | 4 6 7 | 5 9 3
3 9 4 | 5 1 2 | 6* 8 7
6 7 5 | 9 8 3 | 1 2 4
------+-------+------
1 5 9 | 3 7 8 | 2 6 4
9 8 7 | 6 4 5 | 3 1 2
4 3 2 | 1 9 4 | 8 7 5

* Valeur initiale modifiée.

Initiating Grid Analysis

I've begun analyzing the Sudoku grid, identifying the user's objective and input format in French.

Defining Solution Strategy

I've determined text output is the best approach, and I'm starting to build a solving algorithm.

Analyzing Number Placement

I've just made significant deductions on number placement, specifically for '4' and '1'.

I've determined that R7C8 must be '4', and further analyzed Box 9 after.

Analyzing Number Placement (Again)

I've successfully placed '1' at R4C3, and initiated further deductions about other numbers.

Deducing Candidate Values

I've determined some missing numbers and narrowed potential candidates within specific rows and boxes.

Analyzing Candidate Constraints

I've determined possible values and exclusions for Row 7, and reexamined column and box 6 for restrictions.

Analyzing Number Placement (Again)

I've determined some new possible values, applying deductions across rows, columns, and boxes.

Deducing Possible Values

I've determined possible locations for '7', '8', and missing values in Row 5, and I'm examining Box 5.

Analyzing Number Placement (Again)

I've determined R5C4 must be '5' using column constraints and deduced candidates for row and box 5.

Analyzing Number Placement (Again)

I've determined some new possible locations for numbers, revisiting existing areas of interest, like Boxes 2, 4 and 7.

Confirming Number Placement

I've successfully placed '4' at R1C2 using box and column constraints, and I'm further examining 4's grid placement.

Refining Value Placement

I've determined possible candidate locations for '1' in Boxes 3 and 9, based on exclusions.

Confirming New Placement

I've determined R8C9 is '1', which I verified and used to begin Box 3 deductions.

Deducing New Values

I've determined R6C7 is '3', and I'm updating Row 6, finding the placement for missing numbers.

Analyzing Pair Deduction

I've determined a strong candidate pair in Box 4, using row and column analysis.

I've deduced that R5C1 and R5C2 are {3, 9} and R4C2 and R6C2 are {2, 7} within Box 4, due to missing values.

Confirming Box Values

I've determined that R5C5 is '6' and R5C8 is '8', and I'm updating deductions.

Refining Grid Analysis

I've determined possible locations for 5 and 9 within Box 9, using existing constraints.

Refining Candidate Pairs

I've determined a hidden pair of {1, 5} exists at R1C8 and R3C8 within Box 3, by exclusions and constraints.

Refining Row Analysis

I'm now focusing on Box 3, specifically on constraints within Rows 1, 2, and 3, to place '8'.

Confirming Col Deduction

I've determined R9C2 is '3', R5C2 is '9', and R5C1 is '3', significantly progressing column and box analysis.

Refining Placement Analysis

I've determined possible locations for 9 within column 7, and reexamined column and box constraints.

\n\n
Reassessing Row Analysis

I've narrowed down candidate values for Col 1 and reviewed locations of missing numbers in Box 7.

Deducing New Placements

I've determined possible locations for missing values within Columns 3 and 5, based on current exclusions.

Confirming Number Placement

I've determined that R4C6 is '3', R4C4 is '4', and reexamined candidate placements within Box 5.

Chaîne de pensée Gemini

Ainsi, même un modèle plus puissant échoue à résoudre une instance plus compliquée du Sudoku.

Expérimentations étendues

L’étude de (Seely et al. 2025) teste 100 Sudokus de tailles 4×4, 6×6 et 9×9 avec plusieurs modèles :

Modèle (LLM) \(4×4\) \(6×6\) \(9×9\)
o3‑mini‑high \(73.3 \%\) \(6.7 \%\) \(2.9 \%\)
Gemini 2.5 Pro \(60.0 \%\) \(13.3 \%\) \(0.0 \%\)
GPT‑4.1 \(13.3 \%\) \(0.0 \%\) \(0.0 \%\)
Qwen-* \(40-53 \%\) \(0.0 \%\) \(0.0 \%\)

Les meilleures performances restent loin d’une fiabilité générale, y compris sur les grilles 4×4.

Pourquoi ces résultats ?

  • Les LLM sont entraînés par induction statistique sur de grands corpus textuels : ils prédisent la suite la plus probable.
  • Le Sudoku demande au contraire une exploration systématique et déductive de contraintes sur toute la grille.
  • Sans mécanisme explicite d’inférence logique, un modèle peut perdre la cohérence globale et halluciner une solution.
  • Les techniques de raisonnement comme la chaîne de pensée améliorent parfois les performances, mais restent loin des solveurs symboliques.

Conclusion

  • Le Sudoku illustre une limite structurelle des IA modernes lorsqu’elles s’appuient seulement sur l’induction statistique.
  • Un bon usage de ces outils suppose donc de conserver un esprit critique face à leurs réponses.
  • Les solveurs symboliques restent nettement plus fiables pour garantir une solution correcte.
  • Le constat ouvre naturellement vers des systèmes hybrides mieux armés pour le raisonnement.

Le penseur conservant son esprit critique face à tous ces LLM – Photo originale Wikipedia

Perspective neuro-symbolique

  • La recherche actuelle explore des architectures qui combinent réseaux neuronaux et modules logiques.1
  • L’objectif est d’injecter des contraintes formelles, de rendre les décisions plus explicables et d’améliorer la robustesse.
  • Cette voie prometteuse cherche à réunir le meilleur des deux mondes : apprentissage statistique et raisonnement déductif.
  • Elle constitue une piste crédible pour dépasser les limites observées sur le Sudoku et sur d’autres problèmes logiques.


Le penseur semblant soulagé d’apprendre ces perspectives. Néanmoins, il s’agit d’un penseur pensé et dessiné par une IA. – Gemini/Nano Banana

Références

Seely, Jeffrey, Yuki Imajuku, Tianyu Zhao, Edoardo Cetin, et Llion Jones. 2025. « Sudoku-Bench: Evaluating creative reasoning with Sudoku variants ». ArXiv abs/2505.16135. https://doi.org/10.48550/arxiv.2505.16135.