zondag 8 november 2020

Schaakprogramma's testen deel 2

Corona hakt in ons sociaal en voor velen ook hun professioneel leven. De schade loopt op en er is geen twijfel over dat het zowel financieel als emotioneel een enorme kater zal opleveren. Echter zelfs ook aan het meest negatieve zijn er pluspunten. Zo las ik recent op diverse websites dat de slaagcijfers in het hoger onderwijs iets hoger lagen dan voorbije jaren zie o.a. hogere slaagcijfers in franstalig hoger onderwijs ondanks coronavirusgeen corona effect vub studenten leggen betere examens af dan afgelopen jaarondanks corona slaagcijfers ku leuven liggen hoger dan normaal.

Er werd nochtans op voorhand aangekondigd dat er niet milder zou worden verbeterd. Ook werd er gevreesd dat het gebrek aan fysieke lessen nefast zou zijn voor de slaagkansen. Ik vermoed dan ook dat het gebrek aan afleiding door corona misschien studenten wel vaker deed beslissen om de cursussen iets sneller te openen.

Ik kan ze geen ongelijk geven. Deze crisis schept zeker ook kansen om projecten op te starten die in gewone tijden moeilijker of zelfs helemaal niet haalbaar zijn. Ook voor schaakprogrammeurs is 2020 een boerenjaar. De progressie dit jaar versnelde want we kregen meerdere belangrijke updates van o.a. Leela en Stockfish. Het is ongelooflijk dat de rek er nog steeds niet uit is want ik vermoed dat de gewone sterveling al lang geen besef meer heeft van hoe sterk het beste commercieel schaakprogramma ondertussen is. Net daarom dacht ik dat het wel eens nuttig kon zijn om dit in een grafiek te gieten.

Voor lezers die een meer gedetailleerde evolutie van de topprogramma's willen bekijken, kan ik dit leuke youtube-filmpje aanraden. Er bestaan nog anderen op het internet maar de boodschap is steeds dezelfde. Ze zijn in ruim 3 decennia geëvolueerd van oorspronkelijk zeer zwak naar een niveau onmogelijk nog te snappen voor een mens. 

Op TCEC loopt er zelfs een permanente joke hierover. Zo houdt een teller bij hoe vaak iemand vraagt naar een match tussen Carlsen en de computer. In bovenstaande grafiek toon ik met de rode lijn aan wanneer het beste commercieel programma definitief de beste mens gepasseerd is. In 2006 gaf Rybka de doodsteek aan de strijd mens-computer en sindsdien is het gat steeds blijven groeien.

Testen van de beste schaakprogramma's heeft vandaag enkel nog zin onderling. Eind vorig jaar schreef ik in deel 1 dat dit testen naar meer smaakte voor mij maar te tijdverslindend was en dus niet voor direct. De corona-crisis zorgde uiteraard voor plots wel voldoende ruimte hiervoor en daar maakte ik dankbaar gebruik van. In het voorbije jaar organiseerde ik een dozijn matchen telkens bestaande uit 100 rapidpartijen (15min + 10sec) op diverse computers en tussen steeds nieuwere en sterkere schaakprogramma's.

Het is moeilijk om uit bovenstaande cijfers precies af te leiden hoe groot de progressie van het sterkste commercieel programma is geweest afgelopen jaar. Daarom maakte ik onlangs ook nog eens een vergelijking tussen Leela v22 (eind vorig jaar) en Leela v26 (nu) met Komodo 11 op mijn nieuwe laptop. Het resultaat was verbluffend. Vorig jaar vond ik de overwinning van Leela met 62,5 - 37,5 al indrukwekkend maar dit verbleekt met de recente nieuwe Leela die 75 -25 scoorde. Dat komt overeen met 100 TPR extra. M.a.w. het is dus hoogtijd om eens Leela up te daten als je nog werkt met een versie van vorig jaar (mijn best scorende versie in de testen is voorlopig v0.26.1 met netwerk J92-210).

Het blijft een kluwen om de beste versie van Leela eruit te pikken. Sommige testen met recentere versies scoorden zelfs slechter dus je weet nooit op voorhand of je er beter aan doet om up te daten. Het hangt trouwens ook sterk af van de hardware (grafische kaart) die je gebruikt. Dit is dan ook de reden waarom ik in bovenstaande tabel vermeld met welke computer ik een test gemaakt heb.

Zo zien we dat de laatste versie van Stockfish meer profiteert van mijn gloednieuwe desktop dan Leela. Nadat ik vorig jaar mijn laptop verving, heb ik vorige maand ook mijn desktop vervangen (de 4 jaar oude had een zeer slechte grafische kaart en er waren heel vaak problemen met het geheugen). Ik zie dat Stockfish 100-200% meer nodes berekent op de nieuwe desktop t.o.v. de nieuwe laptop. Leela wint slechts een 50% aan nodes.

Dus de progressie gebeurt zowel op software als hardware. Bovendien wordt het ook steeds lastiger om die progressie te meten. Zo kun je ook uit mijn testen zien dat het remise-percentage in mijn matchen steeds hoger wordt. Dit ligt ook volledig in de lijn van mijn vorig artikel dat schaken bij het naderen van perfect spel uiteindelijk enkel remises nog oplevert. Zelfs de truuk van opgelegde openingen blijkt steeds minder goed te werken.
Zo hou ik met een kleurentabel bij welke openingen interessant zijn en welke niet. Groen is ok. Oranje betekent dat ik ze verder moet opvolgen. Rood betekent dat de openingen moeten worden vervangen. Dat gebeurt nadat ofwel 4 keer na elkaar hetzelfde kleur wint met dezelfde opening of 8 keer na elkaar remise werd gespeeld met dezelfde opening. Na mijn laatste match moet ik 22 van de 50 openingen daarom vervangen.

Bij TCEC zijn Nelson Hernandez en Jeroen Noomen voortdurend op zoek naar openingen die ervoor zorgen dat de schaakprogramma's optimaal kunnen worden getest. Dit blijkt een steeds grotere uitdaging te worden. Na de eerste cyclus (4 matchen) verving ik 3 openingen, na de tweede 15 en nu blijken het er al 22 te zijn. Ik had nochtans net op het omgekeerde gehoopt nadat ik eerder al de slechte had vervangen. In elk geval de superfinale van TCEC Season 19 waarbij Stockfish won met 9 punten verschil was een sterk staaltje van openingen-selecteren.

Dit resultaat zal misschien ook lezers doen afvragen waarom ik nog die matchen uberhaupt organiseer. Vandaag Stockfish 12 downloaden en Kees is klaar. Tja dat is correct maar dat was zeker niet duidelijk een paar maanden geleden toen versie 12 nog niet eens beschikbaar was. Ik bedoel dat je heel snel achterop hinkt als je niet voortdurend uitkijkt naar vernieuwingen. Zo analyseerde ik nog tot september vorig jaar met Komodo 11. Vandaag zijn mijn analyses minstens 200 elopunten beter en zoiets kan wel degelijk een (miniem) verschil maken in een voorbereiding zelfs voor een klassieke bordpartij gespeeld op mijn bescheiden niveau.

Trouwens ik merk op dat de overlapping tussen de zetten van Stockfish 12 en de meeste recente versie van Leela nog steeds maar 60% is. Stockfish 12 volstaat zeker maar Leela biedt nog steeds extraatjes. Tenslotte is het ook gewoon een leuke bezigheid dit testen van schaakprogramma's en dat is zeker welgekomen in deze corona-tijden.

Brabo

3 opmerkingen:

  1. Je milestone van 2006 als keerpunt voor mens-computer sterkte lijkt me correct. In 2005 verloor Adams zwaar van Hydra en in 2006 Kramnik van Fritz, en daarmee was de interesse voor mens-computerschaak zo goed als verdampt.

    BeantwoordenVerwijderen
    Reacties
    1. Mijn eigen elo/ sterkte lag altijd enkele honderden punten lager dan de sterkste commerciële engine. Ik heb vanaf het prille begin (jaar 1990) van mijn carrière computers gebruikt en daarom heb ik mezelf altijd beschouwd als een van de allereerste schakers die opgegroeid is met de computer.

      Vandaag vermoed ik dat 99,9% van de jonge schakers opgegroeid zijn met de computer. Vandaag is het dus absoluut normaal dat je met de computer leert beter te schaken maar in de jaren 90 was dit helemaal niet evident. Ik kreeg toen heel vaak kritiek van andere schakers op het feit dat ik mijn partijen analyseerde met een computer. Dat werd toen beschouwd als idioot. Tijden veranderen.

      Verwijderen
  2. Voor wat betreft het gebruik van nieuwe engines (en hardware), kan ik enkel bijtreden - ik laat vaak op chessbase mijn engine analyses doen, en stellingen die een SF10 of ST11 (en vooral een Fritz) nog als gelijk beschouwen, doorgrondt een SF12 beter en geeft winst aan.

    BeantwoordenVerwijderen