maandag 1 maart 2021

Datamining in het schaken

Datamining is een techniek die gebruikt wordt om patronen (correlaties) te vinden in grote hoeveelheden data. Dit is niet enkel van nut voor bv commerciële bedrijven, die willen weten of ze hun schaakborden wel nog kwijt kunnen aan hun actuele doelgroep van oude grijze mannen, of als ze misschien generation Z moeten aanboren. Het gaat dan niet meteen om het vinden van eerste-orde verbanden, maar ook tweede- en zelfs derde-orde relaties kunnen nuttig zijn.

Deze site blog heeft al tal van voorbeelden van doorgedreven onderzoek getoond, maar ik denk dat de gastheer van deze blog zeker hier en daar sneller tot resultaten zou gekomen zijn, met een meer doorgedreven zoekmachine, om patronen, nieuwtjes, winstwendingen, originele stellingen op een meer automatische manier te vinden.

Wat we vandaag kunnen met de filters van Chessbase is al leuk – en Chessbase timmert langzaam verder aan de weg naar meer functionaliteit, maar we zijn er nog niet. Chess Query Language (CQL), dat veel meer mogelijk maakt op pgn-databanken, is een verdere stap, maar ook daar zijn limieten aan. Om echt datamining te doen op schaakpartijen, zouden *alle* gegevens van de partij moeten bekend zijn: niet enkel alle zetten, maar ook alle pionformaties (op elke zet), alle stellingskenmerken (zoals dubbele torens, loperpaar, geïmmobiliseerd stuk, …), alle manoeuvers (schijnoffer, paard op rand, …) en alle dreigingen (stikmat, vork, …), maar ook de gebruikte bedenktijden (impact van tijdnood!), alle gegevens van de spelers, … Dan pas is een uniforme controle mogelijk, zoals het verband tussen een gewonnen toreneindspel (dankzij dreiging om over te gaan in gewonnen pionneneindspel, elosterkte, opening, partijverloop en bv de leeftijd van de spelers.

Vraag is natuurlijk of zo’n doorgedreven analyse nog iets bijbrengt. Misschien om algemene trends te identificeren, maar mijns inziens zeker niet om te helpen bij de partijvoorbereiding. Zelfs al zou je ontdekken dat je tegenstander zijn paardeindspelen beroerd speelt, dan nog ga je in het middenspel niet een tweedekeuze zet spelen om toch maar in een paardeinspel te komen, lijkt me.

Chessbase heeft nu al een indicatie tussen openingsvariant en de eindspelen die er typisch uit ontstaan, en op zich is dat al heel nuttig. Maar ik kwam op het idee van datamining, toen ik jaren geleden toevallig een zeer groot winstpercentage ontdekte in een openingsvariant bij computerpartijen. De stelling vlak na de opening was gelijk, maar toch won wit quasi alle partijen. Het gaat om deze variant:
Mijn databank van CCRL-partijen telt 38 partijen met deze variant. Zwart wint er 3, er zijn 11 remises en dus wint wit er 24 (!). Het probleem in de stelling zit hem erin dat toen veel programma’s ingingen op het vervolg: 10…Dd5 11.Lxf6 gxf6 12.Lxc6+ Dxc6 13.Dg7 Ke7 14.Dxh8 en wit won meestal. Nu, ik moet toegeven dat de eloverhoudingen meestal wel gerespecteerd werden, dus dit was ook een voorbeeld van statistisch toeval. Een dergelijk filter zit al in Chessbase: op een selectie kan je checken welke varianten (ECO-codes meer bepaald) het best scoren (iets wat Lichess ook toelaat te doen met je eigen partijen).

Diverse punten worden met dit voorbeeld geïllustreerd: 1) er zijn nog altijd heel leuke dingen te vinden in computerdatabanken; 2) interpreteer altijd de resultaten van een filtering (het is niet omdat een variant die Walter Browne vaak verloor, slecht is, want Browne was een notoire zenuwpees en tijdnoodkonijn) – dit probleem heb je trouwens ook met computerpartijen: sommige programma’s hebben of een beter tijdsbeheeralgoritme, of zijn taktisch beter dan de tegenstander als de bedenktijd heel kort wordt.

Wat betreft statistisch toeval wil ik nog dit eraan toevoegen: ooit – in een ver verleden – speelden Fritz en Junior een heuse “computer-kandidatenmatch”. Professor Enrique Irazoqui organiseerde de match in Cadaques (The gospel according to Enrique Irazoqui ). Bedoeling was om een “uitdager” te selecteren om in oktober 2002 een match tegen Kramnik in Bahrein te spelen (zie Brains in Bahrain en 32-bit op 64 velden ). Er ging heel wat controverse mee gepaard, omdat Fritz en Junior handpicked werden door Chessbase, en andere programma’s (Rebel, Hiarcs, Shredder en andere (sub)toppers uit die periode, gewoon genegeerd werden). Junior begon die match met 5 overwinningen op Fritz, maar Fritz trok de match over 24 partijen terug recht en won de play-off. De partijen zelf zijn nauwelijks nog terug te vinden op internet, maar de berichtgeving is er gelukkig wel nog: zie twic339 en Kramnik versus Deep Fritz 2002 en games.onlinesupplement2.

Anders gezegd: was de samplegrootte van deze partijen niet 24 partijen geweest, maar slechts zes of twaalf, dan was het resultaat van de match anders geweest. Er was toen al tijdens de match veel discussie over de settings van Junior en Fritz, om de 5-0 start te verklaren, en nog meer toen Fritz gelijk kwam – laat staan was dit gebeurd bij een match tussen twee mensen. Vandaar ook de kritiek op de steeds korter wordende WK-matchen: spelers nemen geen risico meer, want éénmaal op voorsprong in bv een match over 12 partijen, dan is het enkel nog keepen geblazen (wat ooit de grote kritiek was van Fischer op een match met een vast aantal partijen). Veel WK-matchen (en lange tornooien) hebben aangetoond dat bv conditie ook een element is dat doorweegt in de sterkte van een speler. Zo was Rubinstein een diesel, terwijl andere spelers net verzwakten als het “te lang” duurde. Maar nu zijn we al ver afgedwaald van het startpunt.

HK5000

1 opmerking:

  1. Ik herinner mij dat de Nederlandse FM en computerspecialist Vincent Diepeveen enkele jaren geleden claimde dat datamining zeker de schaakprestaties kan verbeteren. Echter wanneer hij bij grootmeesters aanklopte dan ving hij telkens bot. Niemand was geïnteresseerd. Grootmeesters vonden dat ze zelf al heel goed wisten wat hun zwakke en sterke punten waren. Ook kenden ze door hun dagelijkse studie al heel goed hun repertoire zodat datamining hen puur tijdsverlies leek. Bij professionals is het in de eerste plaats noodzakelijk om je tegenstander te verrassen, nieuwe ideeën te kunnen voorleggen en dus waarvan zo weinig of liefst geen data reeds beschikbaar van is.

    Voor amateurschakers liggen de kaarten anders. Daar is datamining zeker wel nuttig maar dan bots je natuurlijk al snel tegen de grenzen van wat een amateur kan/ wilt doen voor het schaken. Wat je wel ziet vandaag is dat er meer en meer repertoire-boeken gepubliceerd worden met systemen die gemakkelijk aan te leren zijn en in de praktijk goed scoren voor amateurs (dus opnieuw een soort datamining). Dit is naar mijn gevoel toch anders in vergelijking met pakweg 20 jaar geleden waar openingsboeken veel meer de theoretische kant bespraken.

    BeantwoordenVerwijderen