flowchart LR
A["Tous les hommes sont mortels"] --> P{"Déduction"}
B["Socrate est un homme"] --> P
P --> C["Socrate est mortel"]
1 Introduction
De nos jours, les intelligences artificielles (IA), et plus particulièrement les grands modèles de langage (LLM), ont pris une place conséquente dans nos activités. Elles deviennent un réel atout lorsque nous nous posons des questions, de la littérature aux mathématiques, en passant par la philosophie, l’informatique et bien d’autres domaines académiques ou industriels (Colelough and Regli 2025). Ainsi, rappelons-le, ces IA nous servent d’outils d’aide à la décision ; elles ne doivent pas nous faire perdre notre esprit critique face à leurs suggestions.
Le but de cet article est de rappeler les limites de ces outils à travers un exemple simple et parlant : le Sudoku. Dans la suite, nous défendrons l’idée que ce puzzle, parmi tant d’autres puzzles logiques, exige une chaîne de déductions rigoureuses et profondes pour être résolu. Nous verrons que, face à ce problème, les IA modernes peinent encore à trouver une solution fiable (Giadikiaroglou et al. 2024; Defresne et al. 2025). Bien sûr, certains objecteront que ces IA sont aussi capables de retrouver l’algorithme de résolution, et elles le sont. Le point est ailleurs : si nous proposons à la machine un problème original, sans qu’elle dispose des méthodes formelles pour le résoudre, que va-t-elle halluciner et nous retourner avec assurance ?
Afin de proposer quelques points de vue et pistes en lien avec l’état de l’art, nous esquisserons d’abord un rappel de l’évolution de l’IA au fil du temps, en décrivant l’émergence de ses différents paradigmes (Section 2.1). Dans un second temps, nous verrons comment les catégoriser à travers les outils logiques que nous utilisons en tant qu’humains (Section 2.2), ce qui permettra aussi un parallèle avec les neurosciences (Section 4.2). Nous finirons par expliquer pourquoi les IA actuelles – les LLM – échouent à résoudre le Sudoku (Section 3), et vers quels paradigmes nous pourrions évoluer pour pallier ces imperfections (Section 4.1).
2 Contexte
2.1 Brève histoire des paradigmes symbolique et connexionniste
Dans la vaste histoire de l’IA, nous nous concentrons ici sur l’introduction, à grands traits, des paradigmes symbolique et connexionniste. De nombreux mythes et théories formelles sont antérieurs à cette introduction : on peut mentionner le mythe du Golem comme une forme précoce de prototypage de l’IA (Vudka 2020), ou encore les fondements de l’informatique posés par Alan Turing, souvent présenté comme l’un des pères du domaine et du fameux test de Turing (Saygin and Çiçekli 2000). Ce test vise à déterminer si une machine atteint un niveau de cognition comparable à celui de l’humain, en confrontant une personne à une entité (humaine ou machine) dans des conditions de mise à l’aveugle. Cette méthode est aujourd’hui largement discutée et appelle un renouvellement des définitions de l’intelligence et de la conscience (Wang et al. 2024).
Au cours des années 1950-1980, la recherche se focalise particulièrement sur le paradigme symbolique. Le symbolisme postule que les symboles – représentant des objets du monde – sont les unités fondamentales de l’intelligence humaine. Le processus cognitif peut alors être décrit comme une manipulation de symboles, à travers une série de règles et d’opérations logiques. Ce paradigme présente plusieurs vertus : il nécessite peu d’exemples, propose des langages déclaratifs pour représenter les connaissances, et ses processus internes sont conceptuellement clairs. Mais comme tout langage formel, il se heurte à des limites, notamment sa fragilité face au bruit et à l’ambiguïté. À cela s’ajoute son manque d’autonomie (par exemple, les règles doivent être renseignées par un expert) (Wang et al. 2022).
Face à cette impasse, la fin des années 1980 marque un déplacement vers le paradigme connexionniste. Inspiré par la physiologie du système nerveux, le connexionnisme représente la cognition par l’interconnexion de réseaux de petites unités simples et uniformes : les neurones. L’apprentissage s’opère par la modification des poids associés à ces neurones, à partir d’exemples issus du monde réel. Ce paradigme tolère mieux le bruit, extrait des concepts et généralise à partir de bases d’entraînement. Il est particulièrement efficace en vision et, comme on le constate aujourd’hui, dans le langage. Ses limites apparaissent toutefois avec la quantité massive de données requise pour apprendre, ainsi qu’une généralisation parfois peu abstraite. Enfin, ce paradigme souffre de son effet boîte noire : il est difficile d’observer et d’expliquer son processus de raisonnement (Wang et al. 2022). Dans la Section 3, nous verrons comment ces limites se manifestent.
Face aux limites respectives du symbolisme (rigidité, difficulté d’apprentissage) et du connexionnisme (manque d’explicabilité, faiblesse en raisonnement logique), un nouveau champ émerge dans les années 1990 : l’IA neuro-symbolique. Ce paradigme vise à combiner apprentissage statistique et raisonnement logique pour tirer parti du meilleur des deux mondes. (Wang et al. 2022) Dans la Section 4.1, nous observons que la tendance actuelle de la recherche pourrait de nouveau converger vers cette vision.
2.2 Lien avec le domaine de la logique
Avant d’étudier le problème du Sudoku, nous souhaitons clarifier les définitions précédentes des paradigmes symbolique et connexionniste, en les reliant à des mécanismes logiques précis.
L’induction, la déduction et l’abduction (Bergman et al. 2011) sont trois mécanismes fondamentaux utilisés en logique, en philosophie des sciences, en intelligence artificielle et en recherche scientifique. Chacun possède une structure logique distincte et joue un rôle spécifique dans la construction des connaissances.
2.2.1 Déduction
Définition – La déduction est un raisonnement allant du général au particulier : si les prémisses sont vraies, la conclusion l’est nécessairement. On dit aussi que la déduction suit une structure syllogistique.
Reprenons un exemple classique du monde de la logique, avec ce syllogisme invitant Socrate dans le monde des mortels. À partir des prémisses tous les hommes sont mortels et Socrate est un homme, la logique déductive conduit à la conclusion Socrate est mortel.
2.2.2 Induction
Définition – L’induction consiste à inférer une règle générale à partir d’observations particulières répétées. L’induction va du particulier au général, mais n’offre pas de certitude absolue ; sa force augmente avec le nombre d’observations concordantes.
Reprenant le précédent exemple, nous pouvons partir des observations : “Socrate est mortel”, “Platon est mortel”, …, “Andreas est mortel” ; l’induction proposerait donc que “tous les hommes sont mortels”.
flowchart LR
A["Socrate est mortel"] --> P{"Induction"}
B["Platon est mortel"] --> P
C["..."] --> P
D["Andreas est mortel"] --> P
P --> E["Tous les hommes sont mortels"]
2.2.3 Abduction
Définition – L’abduction (ou inférence à la meilleure explication) consiste à proposer une hypothèse plausible pour expliquer un fait surprenant ou inattendu. L’abduction part d’une observation étonnante pour remonter à une cause possible.
Pour cette dernière application avec l’exemple suivi, les prémisses sont : “Socrate est mortel” et “tous les hommes sont mortels” ; l’abduction proposerait alors l’hypothèse plausible que “Socrate est un homme”.
flowchart LR
A["Tous les hommes sont mortels"] --> P{"Abduction"}
B["Socrate est mortel"] --> P
P --> C["Socrate est un homme"]
Dans le contexte du Sudoku, une résolution optimale requiert principalement une chaîne déductive rigoureuse – ce que maîtrisent parfaitement les solveurs symboliques, mais qui échappe encore largement aux LLM actuels, bien plus proches d’une logique inductive (Giadikiaroglou et al. 2024; Defresne et al. 2025). Dans la suite de cet article, nous expérimentons ce constat (voir Section 3) et revenons sur ces termes définies dans cette section.
3 Expérimentation du problème du Sudoku
Les expérimentations proposées ici restent sommaires, mais elles apportent une valeur de vérité supplémentaire aux travaux plus exhaustifs que nous citons dans la suite. Ces exemples invitent aussi le lecteur à copier les prompts en question et à tester lui-même si son LLM préféré est capable, ou non, de résoudre ce problème. Avant de plonger dans les expériences que nous avons menées, rappelons ce qu’est le problème du Sudoku et la différence que nous faisons entre un problème et une instance du problème.
Le Sudoku est un puzzle combinatoire numérique fondé sur la logique. Dans le Sudoku classique, l’objectif est de remplir une grille de 9×9 avec des chiffres, de sorte que chaque colonne, chaque ligne et chacune des neuf sous-grilles de 3×3 qui composent la grille (aussi appelées « boîtes », « blocs » ou « régions ») contienne tous les chiffres de 1 à 9. L’auteur du puzzle fournit une grille partiellement remplie qui, pour un puzzle bien posé, admet une solution unique.1
Ainsi, le problème du Sudoku correspond à cette définition générique, tandis qu’une instance du Sudoku correspond à une grille préremplie menant toujours à une et une seule solution. Le problème du Sudoku réunit toutes les instances possibles. Toutes les instances du Sudoku ne sont pas de complexité équivalente : certaines demandent des techniques avancées pour être résolues (par exemple, l’instance difficile présentée dans la Section 3.2 nécessite l’application de techniques telles que le X-Wing ou le Y-Wing ; voir l’étude (Qi et al. 2019)).
Il est important de préciser au lecteur que résoudre une instance du Sudoku est différent du fait de savoir résoudre génériquement le problème du Sudoku.
Les expérimentations menées à l’échelle de cette étude restent modestes : nous nous concentrons sur deux instances du problème du Sudoku, la première simple et la seconde difficile. Nous nous appuyons ensuite sur une étude (Seely et al. 2025) proposant des expérimentations plus larges sur ce problème.
3.1 Résolution d’une instance simple du Sudoku
Pour cette première instance, dite simple, du Sudoku, les techniques utilisées pour la résoudre ne nécessitent pas une grande complexité opératoire : pour chaque case vide, il suffit de croiser les trois contraintes qui contrôlent sa valeur (valeurs différentes en ligne, en colonne et dans la sous-matrice 3×3) pour trouver, pour l’une d’entre elles, une unique valeur possible. Et ainsi de suite, jusqu’à la fin du puzzle. Bien que la méthode semble simple, elle exige tout de même de nombreux allers-retours dans la lecture de la grille de Sudoku.
Voyons maintenant les résultats obtenus avec deux LLM couramment utilisés par le grand public : ChatGPT (la version gratuite) et Gemini (décliné en Gemini 3 Rapide et Gemini 3 Pro). La Figure 4 montre les résultats obtenus.
. 1 8 | . . . | . 7 .
. 7 . | . . 1 | 9 . .
. 6 . | 8 5 . | 1 2 .
------+-------+------
6 . . | 7 . . | 3 . .
7 . . | 5 1 . | . 8 .
8 . 4 | . . 9 | 7 . 5
------+-------+------
. 4 7 | . 9 8 | . 5 .
. . 2 | 6 . 5 | . 3 .
. . 6 | . . . | 2 4 .
2 1 8 | 9 6 3 | 5 7 4
5 7 3 | 2 4 1 | 9 6 8
4 6 9 | 8 5 7 | 1 2 3
------+-------+------
6 5 1 | 7 8 4 | 3 9 2
7 9 3 | 5 1 2 | 4 8 6
8 2 4 | 3 6 9 | 7 1 5
------+-------+------
3 4 7 | 1 9 8 | 6 5 2
1 8 2 | 6 7 5 | 4 3 9
9 3 6 | 4 2 1 | 2 4 7 <-- deux '2'
Gemini 3 Rapide
4 1 8 | 9 2 6 | 5 7 3
2 7 5 | 4 3 1 | 9 6 8
9 6 3 | 8 5 7 | 1 2 4
------+-------+------
6 5 1 | 7 8 4 | 3 9 2
7 3 9 | 5 1 2 | 4 8 6
8 2 4 | 3 6 9 | 7 1 5
------+-------+------
3 4 7 | 2 9 8 | 6 5 1
1 9 2 | 6 4 5 | 8 3 7
5 8 6 | 1 7 3 | 2 4 9
Gemini 3 pro (raisonnement)
5 1 8 | 9 2 4 | 6 7 3
2 7 3 | 4 6 1 | 9 0 8 <-- '0', puis
. . . | . . . | . . . abandon
------+-------+------
. . . | . . . | . . .
. . . | . . . | . . .
. . . | . . . | . . .
------+-------+------
. . . | . . . | . . .
. . . | . . . | . . .
. . . | . . . | . . .
ChatGPT
La première grille (Figure 4 (a)) représente une instance à compléter du Sudoku, telle qu’elle a été présentée aux trois LLM interrogés sous cette forme :
Résous cette instance du Sudoku :
<grille>
Nous nous concentrons d’abord sur les modèles les plus simples de nos essais. La Figure 4 (b) montre le résultat de l’expérimentation avec Gemini 3 Rapide. Ce premier retour mène à un échec : le LLM testé renvoie, avec assurance, une grille erronée dont la dernière ligne contient deux valeurs dupliquées. La Figure 4 (d) montre le résultat du test avec ChatGPT. Celui-ci mène lui aussi à une grille erronée, mais les retours du prompt montrent une certaine humilité quant aux résultats produits : ChatGPT affirme lui-même qu’il ne s’agit pas du genre de problème qu’il est capable de résoudre. Dans sa réponse, il interrompt même l’écriture de la grille au moment où un 0 est rencontré.
L’un des modèles les plus évolués de l’instance publique (et payante) de Google, correspondant à l’intitulé Gemini 3 pro, donne une autre tournure aux tests. En effet, ce modèle est capable de raisonnement. Ce raisonnement doit être recontextualisé : il s’agit d’un processus itératif de raisonnement inductif, comme la nature des LLM l’impose. C’est grâce à ce comportement itératif qu’il est capable de proposer des réponses avec une plus grande probabilité d’être vraies. Dans la Figure 4 (c), Gemini 3 pro montre sa capacité à remplir correctement l’instance simple du Sudoku que nous avons proposée. On peut observer, dans son fil de raisonnement, qu’il pratique ce processus itératif d’essais et erreurs, jusqu’à obtenir la bonne solution de cette grille.
Ce premier test est intéressant et, même s’il montre l’inefficacité des modèles simples face à cette instance du Sudoku, des modèles plus évolués parviennent à la résoudre. Nous verrons dans la partie suivante ce qu’il advient de ce modèle avancé lorsque nous lui soumettons une instance difficile du problème du Sudoku.
3.2 Résolution d’une instance difficile du Sudoku
Comme nous le disions plus tôt, cette instance difficile du Sudoku nécessite des techniques avancées pour être résolue (Y-Wing (Qi et al. 2019)) et implique donc un raisonnement plus complexe. Pour cette dernière étape de nos expérimentations, nous proposons l’évaluation de la résolution de cette grille de Sudoku (Figure 5 (a)) par Gemini 3 pro.
. . . | . 3 . | . . 6
. 1 . | . 5 . | . . .
. . . | . . 9 | 4 . 3
------+-------+------
8 . . | . . . | 5 . .
. . 4 | . . 2 | 1 . 7
6 . 5 | . . . | . . 4
------+-------+------
1 . 9 | 3 . . | . . .
. . . | . 4 . | . 3 .
4 . 2 | . 8 1 | . . .
7 4 8 | 2 3 1 | 9 5 6
2 1 3 | 8 5 6 | 7 4 9
5 9 6 | 7 2 9 | 4 1 3
------+-------+------
8 2 1 | 4 6 7 | 5 9 3
3 9 4 | 5 1 2 | 6* 8 7 <-- valeur initiale
6 7 5 | 9 8 3 | 1 2 4 modifiée
------+-------+------
1 5 9 | 3 7 8 | 2 6 4
9 8 7 | 6 4 5 | 3 1 2
4 3 2 | 1 9 4 | 8 7 5
Gemini 3 pro (raisonnement)
Avant d’en arriver au résultat de la Figure 5 (b), il convient de noter que le temps de raisonnement de Gemini 3 pro a doublé pour l’élaboration du résultat (~3 minutes). Après plusieurs étapes d’essais et erreurs, le LLM pense enfin avoir atteint la solution de cette grille et présente le résultat tel que nous le voyons dans cette figure : à la ligne 5, Gemini 3 pro s’est permis de modifier une valeur initiale de la grille pour faire correspondre sa solution. Voilà donc comment une instance difficile a mis en échec l’un des modèles de raisonnement les plus évolués de Google.
Nous le répétons, cette étude est sommaire et nécessite un jeu de tests bien plus important. Néanmoins, elle vient appuyer une étude plus large que nous décrivons dans la section suivante.
3.3 L’étude de Seely et al. (2025)
Afin de compléter les résultats précédents, l’étude de Seely et al. (2025) est présentée dans cette section. Elle propose un ensemble plus large de tests avec \(100\) instances de Sudoku de différentes natures : \(15\) grilles \(4×4\), \(15\) grilles \(6×6\) et \(70\) grilles \(9×9\). Plusieurs modèles de LLM y sont testés, dont deux modèles OpenAI (le modèle standard GPT‑4.1 et le modèle de raisonnement o3‑mini‑high), un modèle Google (Gemini 2.5 Pro) et quelques modèles open source (Qwen-*).
| Modèle (LLM) | \(4×4\) | \(6×6\) | \(9×9\) |
|---|---|---|---|
o3‑mini‑high |
73.3 % | 6.7 % | 2.9 % |
Gemini 2.5 Pro |
60.0 % | 13.3 % | 0.0 % |
GPT‑4.1 |
13.3 % | 0.0 % | 0.0 % |
Qwen-* |
~40–53 % | 0.0 % | 0.0 % |
Dans la Table 1, nous rappelons les principaux résultats de l’étude de Seely et al. (2025) en ce qui concerne notre sujet. Ce tableau montre que même les instances simplifiées du Sudoku, aux dimensions \(4×4\), n’atteignent pas un taux de réussite parfait. Nous remarquons que les modèles basés sur un raisonnement à processus itératif (essais et erreurs) montent jusqu’à \(60\%\), voire \(73.3\%\) de réussite pour le meilleur modèle OpenAI (o3‑mini‑high). Ce dernier est aussi le seul à réussir quelques instances de la famille de Sudoku aux dimensions \(9×9\). Nous remarquons enfin que le modèle précédent de Google, Gemini 2.5 Pro, n’était pas capable – au moment de cette étude – de résoudre ces puzzles aux dimensions \(9×9\).
Ces études mettent donc expérimentalement en évidence la nature inductive (comme vu dans la Section 2.2.2) des LLM que nous utilisons au quotidien, ainsi que la difficulté qu’ils rencontrent face à des puzzles comme le Sudoku – ou plus largement face à toute question originale nécessitant une chaîne de raisonnement déductif – dès lors qu’ils s’appuient sur un paradigme connexionniste. Dans une vue élargie de la nature des problèmes que nous pouvons rencontrer, cette étude (Giadikiaroglou et al. 2024) propose une classification des puzzles selon leur nature et la capacité des différents paradigmes d’IA à y répondre correctement, ou non.
Les LLMs sont entraînés par induction statistique sur d’immenses corpus textuels ; ils apprennent ainsi à prédire la suite probable d’une séquence donnée. Mais face au Sudoku – problème NP-complet nécessitant une exploration systématique des contraintes logiques – ils peinent à maintenir une cohérence globale sur toute la grille (Giadikiaroglou et al. 2024; Defresne et al. 2025). Même avec des techniques avancées comme le chain-of-thought ou le tree-of-thought, leur taux de réussite reste bien en dessous de celui des solveurs symboliques classiques, qui garantissent toujours une solution correcte (Giadikiaroglou et al. 2024).
Ce constat illustre que l’induction statistique seule ne suffit pas pour atteindre un raisonnement algorithmique profond ; il manque aux LLMs actuels un mécanisme robuste d’inférence logique explicite. Dans la section suivante (Section 4.1), nous décrivons quelques solutions proposées par l’état de l’art sur l’hybridation des paradigmes : l’IA neuro-symbolique.
4 Discussions
4.1 L’IA neuro-symbolique et ses promesses
La recherche contemporaine s’oriente vers l’intégration profonde entre réseaux neuronaux (apprentissage inductif) et modules logiques (raisonnement déductif/abductif) (Colelough and Regli 2025; Wan et al. 2024; Wang et al. 2022). Les architectures neuro-symboliques cherchent ainsi à : - Injecter des contraintes logiques dans l’apprentissage neuronal, - Permettre aux réseaux neuronaux d’appeler dynamiquement des solveurs logiques, - Rendre explicables les décisions prises par l’IA, - Améliorer la robustesse face aux situations inédites ou ambiguës.
Des progrès notables ont été réalisés dans divers domaines (résolution automatique de puzzles visuels complexes comme Raven’s Progressive Matrices (Hersche et al. 2022), question answering avancé…), mais plusieurs défis persistent : passage à l’échelle, intégration multimodale fluide, maintien de l’interprétabilité sans sacrifier la performance (Colelough and Regli 2025; Wan et al. 2024; Wang et al. 2022).
4.2 Lien avec les neurosciences
Le débat entre induction/statistique (connexionnisme) et déduction/logique (symbolisme) trouve un écho direct dans les neurosciences cognitives avec la théorie dite « dual process » :
- Système 1 : Rapide, intuitif, automatique – proche du fonctionnement inductif/statistique.
- Système 2 : Lent, réfléchi, séquentiel – analogue au raisonnement logique/déductif (Colelough and Regli 2025; Kelly and Barron 2022).
L’ambition ultime du neuro-symbolisme est précisément d’articuler ces deux modes cognitifs au sein d’une même architecture artificielle afin d’approcher davantage l’intelligence humaine.
5 Conclusion
Si les IA modernes impressionnent par leur polyvalence apparente, il est crucial pour tout utilisateur averti – chercheur comme citoyen – de garder un esprit critique quant à leurs véritables capacités cognitives. Les LLMs excellent là où l’induction statistique suffit mais échouent dès qu’une chaîne déductive profonde est requise (comme au Sudoku). Le futur se dessine probablement dans une hybridation neuro-symbolique permettant enfin aux machines non seulement « d’apprendre », mais aussi « de raisonner » véritablement (Colelough and Regli 2025; Wan et al. 2024) (Garcez and Lamb 2020). En attendant cette convergence technologique majeure, vigilance et discernement restent indispensables face aux promesses parfois exagérées autour de « l’intelligence » artificielle.
References
Footnotes
Définition proposée par Wikipédia : https://en.wikipedia.org/wiki/Sudoku↩︎
Citation
@online{wattez2026,
author = {Wattez, Hugues},
title = {L’IA Moderne Ne Sait Pas Résoudre Le {Sudoku} : Analyse Des
Limites de l’induction Statistique Et de l’avenir Neuro-Symbolique},
date = {2026-05-13},
url = {https://www.cytopia.fr/cycles/2026/tech/conferences/tech_1/topics/sudoku_kills_modern_ai/},
langid = {en-US},
abstract = {TBA}
}