zondag 14 november 2021

Computerevaluaties

Wat me in deze tijden van ultradiep rekenwerk door programma’s opvalt, is dat deze vaak evaluaties meegeven die voor ons stervelingen buiten ons begrip liggen. Dan bedoel ik bv evaluaties van +2 of meer in “half-gezonde” openingsvarianten, daar waar wij mensen dit als een uitdagende, scherpe voortzetting zouden inschatten, zonder dat daarbij meteen aan winst of verlies wordt gedacht.

Een voorbeeld is de (1.e4 c6 2.d4 d5 3.Pc3 dxe4 4.Pxe4 Pf6 5.Pxf6 gxf6) variant in de Caro-Kann waarbij zwart met zijn g-pion terugslaat, iets wat Larsen en Bronstein graag speelden, wegens de scherpe stellingen die ontstaan en de mogelijkheden tot aanval met zwart. Ik denk niet dat een wereldtopper dit nu nog zou riskeren met zwart. Een mooi voorbeeld was het recente debacle dat Kasparov overkwam, toen hij zijn oude WK-varianten boven haalde in een blitztornooi (GCT Blitz Kroatië 2021) en prompt met 0,5/9 opzij werd gezet. Zijn blitzelo donderde meteen naar beneden van 2801 naar 2644. Ik denk dat het nog even duurt eer hij weer een officieel FIDE blitz- of rapidtornooi gaat spelen.

Een ander voorbeeld is deze stelling; na 1. e4 e6 2. d4 d5 3. Nc3 Bb4 4. e5 c5 5. a3 Bxc3+ 6. bxc3 cxd4 7. cxd4 Qc7 8. Bd2 Bd7 9. Qg4 g6 10. Bd3 Nc6 11. Ne2 O-O-O 12. O-O (Czerniak-Frydman, 1941) en SF14 zegt hierover “+3”. Nu mag dit een prettige stelling zijn om te spelen met wit, maar ik denk niet dat er veel witspelers te vinden zijn die na de partij zouden zeggen: “ik stond gewonnen na 12 zetten”.

Een ander voorbeeld? Na 1.e4 e5 2.Pf3 Pc6 3.d4 exd4 4.Pxd4 Lc5 5.Pxc6 Df6 6.Df3 Dxc6 7.Pc3 Lb4 8.Ld2 is het volgens SF14 +2,3. Wit staat heel goed, geen twijfel mogelijk, maar “meer dan twee pionnen” in de plus, hmm. De partij is nog maar net begonnen, er zijn geen geforceerde voortzettingen. Alles is nog mogelijk, en zeker fouten of blunders langs beide kanten.

Computers zijn een uitstekend hulpmiddel, maar slechts een hulpmiddel, zoals Noël Studer op twitter Neil Bruce (een “adult improver” oftewel “chesspunk”) terechtwees, toen hij met de computer tot een omgekeerd oordeel kwam dan wat in een tekstboek over een stelling stond. De aanbevolen zet “volgens theorie” was zo’n halve pion minder goed dan de “veroordeelde” mindere zet, die de computer de beste vond. Studer gaf terecht aan dat begrip veel belangrijker was dan één optimale zet te spelen (zonder in te zien waarom). Net het gevaar waar al tientallen jaren voor gewaarschuwd wordt bij beginnende schakers die met de computer werken: je gelooft teveel de evaluatie, maar begrijpt niet waarom. Gelukkig zijn de programma’s dankzij Alpha Zero nu ook beter geworden, want vroeger zat je soms met grote verschillen in evaluatie van stellingen voor en na een ruil en passant, een (onder)promotie, een dameruil of een rokade, omdat dat een “discrete” overgang was, die pas na de betreffende zet een andere subroutine activeerde (bv overgang middenspel naar eindspel, of het programma rekent niet vooruit met onderpromoties (of ze waren gewoon zelfs niet geprogrammeerd!), …). Zelfs nu durft het soms nog eens mis gaan: in deze stelling (8/5Q1P/8/6k1/P7/1P6/4qP1K/3q4 w - - 0 83) geeft Leela ook bij langere bedenktijd nog 83.h8D aan als gelijk staand (+0.04) en als beste zet, terwijl SF het na deze zet meteen uit maakt (mat in 5).


Dat is trouwens één van de redenen dat ik geen geforceerde openingsvarianten (zoals een Sveshnikov) meer speel. Ja, het is leuk om nu en dan een “gratis” punt door voorbereiding op te rapen (een klassieker die nog altijd niet overal gekend is (en makkelijk af te straffen), is Lg7 (?!) in de Levenfish draak of a6? tegen de Pd5-variant in de Sveshnikov). Maar zoals ook op twitter aangegeven: heb je net een hele Chessable cursus achter de kiezen over hoe je best de Richter-Rauzer beantwoordt, dan speelt iedereen Alapin, Grand Prix, Rossolimo of gewoon gesloten Siciliaans met wit tegen jou. Rendement en spelplezier primeren bij mij nog boven “alles uit de kast halen”.
 
Zoals Brabo al aangegeven heeft, zitten de huidige programma’s zelf ook er wel eens naast – in die zin dat een positieve evaluatie toch gekeept wordt bij “perfecte tegenstand” (iets waar we in menselijke partijen vaak geen rekening mee moeten houden). Wie voorbeelden wil moet maar gewoon eens naar  TCEC
 surfen – materiaal genoeg.

Onlangs speelde ik een in mijn ogen redelijk gelijk opgaande, maar ietwat complexe partij. Hierbij gaf de computer al na zet 16 aan dat ik gewonnen stond, maar dat gevoel had ik helemaal niet in de partij. Pas na zet 24 had ikzelf duidelijk zicht op winst, en ik had er een paar goede (al zeg ik het zelf) zetten voor nodig. De reden voor deze “mismatch” tussen gevoel en computerevaluatie, was dat wit heel actief speelde – en zijn langetermijnnadeel (koning in het midden) kwam pas op het einde van de partij naar voor als een beslissend nadeel. Een gelijkaardig verhaal in de Brugse open deze zomer : door onnozel in de aanval van zwart lang te rokeren, kreeg ik een pittige aanval van dame, toren en pion te verwerken (terwijl zwart niet eens zijn koningsloper en koningstoren in het spel had gebracht. Pas nadat ik met nauwkeurig spel de aanval afgeslagen had, kon ik het langetermijnvoordeel van de niet-ontwikkeling van mijn tegenstander uitbuiten. Ondertussen verkondigde SF14 wel vrolijk dat ik de hele tijd gewonnen had gestaan. Het is één iets om een rustige positionele plus naar winst te spelen, waar zetvolgorde geen rol speelt, maar het is iets heel wat anders om een scherpe stelling die “+5” staat binnen te halen. Om het met Donner te zeggen: “Geef mij een moeilijk positiespel, ik zal het spelen. Geef mij een slechte stelling, ik zal haar spelen, ingewikkelde stellingen en saaie remisestellingen, ik houd ervan en zal mijn uiterste best doen. Maar glad gewonnen stellingen, daar kan ik niet tegen.”

Een ander voorbeeld is volgend eindspel (5k2/4Nnp1/1p2p2p/1Pp5/2P5/3P1pP1/5P1P/6K1 w - - 0 34 "wit speelt en wint" ), dat ik uit een variant van een partij uit een openingsboek haalde (de lezer mag zich op een traktatie verwennen als hij de partij herkent). De computer geeft winst aan voor wit, en dat is juist, maar ik daag iedereen uit om dit met wit dit eindspel tegen de computer te winnen. Er is slechts één winstpad, en het is niet zo heel moeilijk, maar het komt letterlijk op één tempo aan, dus nauwkeurigheid en zetvolgorde is van groot belang.

Praktisch dan. Heel vaak merk ik, dat wanneer de computer “+2” of zo aangeeft, ik vlotjes tien – vijftien zetten de hoofdvariant moet doorspelen, alvorens er effectief duidelijk (materieel) voordeel op het bord staat, of een pion gewonnen wordt. Bijna even vaak verwatert die geprojecteerde winst, omdat schaken nu eenmaal een spel is met resources voor zowel verdediger als aanvaller. Daar heeft Brabo in één van zijn recente artikelen al over uitgeweid.

Vandaar dat ik sceptisch sta tegenover cafépraat van “ik stond +10 en gaf het dan nog weg”. Als je het grote voordeel niet ziet in je stelling (zoals ik onlangs een “+5” niet verzilverde in Brugge), dan hoef je achteraf ook niet te klagen dat je winst “gemist” hebt. We hebben allen onze begrenzingen en spelen het spel op ons bescheiden niveau.

Daarmee wil ik niet zeggen dat je computeranalyses naast je neer kan leggen. Ik geef gerust toe dat ik nu sommige openingszetten speel, omdat ik nu eenmaal sommige varianten vaak tegen krijg, en dan uiteindelijk eens gekeken heb wat de computer ervan vindt. Zelfs al is het maar één stapje / zetje beter schaak, je hebt tenminste dat op zak, en het geeft ietsje meer vertrouwen voor de rest van de partij. Volgende keer iets meer over wat we van die “overdreven” stellingevaluaties kunnen leren.

HK5000

12 opmerkingen:

  1. Ik vraag me af welke Computer Magnus en de andere super gms gebruiken

    BeantwoordenVerwijderen
    Reacties
    1. In een recent interview op chessbase zegt Caruana dat hij o.a. leela gebruikte tijdens de wk-finale tegen Carlsen. Pas na het wk stelde hij vast dat Carlsen hem geforceerd mat had kunnen zetten in een hoofdlijn. Eind 2018 was Leela nog veel zwakker dan vandaag zie https://en.chessbase.com/post/fabiano-caruana-talks-about-carlsen-nepomniachtchi-and-the-world-championship

      Topalov, Vachier-Lagrave, Caruana,... hebben al toegegeven dat ze toegang hebben tot supercomputers o.a. van universiteiten. Hun sponsors dekken de hoge kosten hiervoor.

      Echter eveneens in een vrij recent interview gaf Anish Giri aan dat je met een gewoon portable met de laatste Stockfish voldoende hebt. De meeste stellingsproblemen kun je hiermee in enkele minuten oplossen en dat is een enorm verschil t.o.v. enkele jaren geleden. Dus veel belangrijker dan computer/ software wordt vandaag de snelheid waarmee je de computers kunt aansturen (secondanten) en daarnaast zelf onthoudt.

      Verwijderen
  2. In 1990 kocht ik mijn eerste schaakcomputer zie mijn blogartikel uit 2012: http://schaken-brabo.blogspot.com/2012/10/schaakcomposities.html
    Sindsdien zijn er heel weinig dagen geweest dat ik niet naar computerevaluaties gekeken heb. Ik kan wellicht vandaag een boek erover schrijven en niet verwonderlijk wordt er op deze blog dan ook geregeld naar verwezen.

    BeantwoordenVerwijderen
  3. 99,9% van alle schakers gebruiken de computer als hulpmiddel maar Stockfish, Leela,... zijn helemaal hiervoor niet ontworpen. Hun primaire doelstelling is het beste schaak ooit te produceren. Computerevaluaties bestaan dus in eerste plaats om de computer de beste zetten te laten selecteren. Dat een mens naar computerevaluaties kijkt om iets te leren, is slechts een leuk nevenverschijnsel voor de ontwikkelaars.

    BeantwoordenVerwijderen
  4. Op Chessbase werd de voorbije weken het 30-jaar bestaan van Fritz gevierd met meerdere artikels zie bv. https://en.chessbase.com/post/thirty-years-happy-birthday-fritz-1
    30 jaar ontwikkeling maar we staan nog steeds nergens met de ontwikkeling van een programma die computerevaluaties vertaalt voor mensen zodat die bruikbaar worden om van de eigen fouten te leren.
    Chessbase zullen velen zeggen maar Chessbase houdt helemaal geen rekening met van welk schaakprogramma de computerevaluatie komt. Of de engine nu 1000 elo heeft of 3500 elo, alles wordt op exact dezelfde wijze geinterpreteerd door Chessbase. Decode is zo een beetje het enige die iets doet van interpretatie maar dat is nog zeer basis.
    Stockfish 14.1 kwam uit na 6 maanden intense ontwikkeling met een heel team van schakers en een arsenaal aan computerresources. Resultaat: 10 elo winst zie https://github.com/glinscott/fishtest/wiki/Regression-Tests op al een astronomische speelsterkte van 3500 elo.
    Ik bedoel indien de ontwikkelaars maar even de prioriteit op de eindgebruiker hadden verlegd dan wie weet wat voor moois er allemaal had kunnen gebeuren i.v.m. hoe computerevaluaties best geinterpreteerd kunnen worden om beter als mens te leren schaken.

    BeantwoordenVerwijderen
    Reacties
    1. Opmerkelijk dat Fritz18 al een aantal dagen (weken?) op Chessbase India te koop wordt aangeboden, terwijl ik het nu pas zie verschijnen op chessbase.com. Geen fanfare meer over de speelsterkte, meer over extra functionaliteit en schaakplezier. (lesje geleerd?)

      Verwijderen
  5. Een paar maanden geleden botste ik nog eens op het artikel uit 2012 van schaaksite over Fritz die in 2000 meespeelde op het Nederlands kampioenschap zie https://www.schaaksite.nl/2012/02/26/column-40-fritz-in-het-nk/
    In 2000 versloeg Loek Van Wely de computer in 25 luttele zetten. Echter wat mij vooral bij het herlezen opviel, was dat in 2012 de sterkste computer toen (Houdini) nog steeds slechts een heel licht voordeel aangaf voor wit na zet 19 dus nauwelijks vooruitgang t.o.v. het jaar 2000. Ik deed de test opnieuw met de huidige Stockfish en die gaf al heel snel scores van +6 en hoger aan.
    Dit was niet alleen een wereld van verschil. Het gaf ook aan dat ondanks materiaal gelijk voor nog verscheidene zetten in de toekomst dat de computerevaluatie helemaal anders gebeurt dan toen.
    Ultradiep-rekenwerk wordt door HK5000 hier aangegeven maar er is meer. Ook bepaalde positionele aspecten krijgen nu een waardering van soms verscheidene pionnen. Ik heb nog nooit eerder gehoord van mensen die positionele aspecten zulke hoge materiele waarderingen geven. Het heeft ook weinig zin om als mens zulke hoge waarderingen aan positonele aspecten te geven om de simpele reden dat we die waardering niet als een computer kunnen ten gelde maken.

    BeantwoordenVerwijderen
  6. Met de opkomst van de neurale netwerken zagen we even een heropstanding van computerevaluaties die werken met winstpercentages i.p.v. honderdsten van een pion. Ik had stilletjes gehoopt dat dit nuttig zou kunnen zijn voor de mens maar dat was van korte duur want al snel werd omgeschakeld ook bij de neurale netwerken weer naar de oude methode van honderdsten van een pion.
    De winstpercentages bleken enkel voor het schaakprogramma zelf te tellen.
    Een winstpercentage voor een mens is te afhankelijk van het niveau van de mens dus een vast mechanisme is weinig zinvol.
    Tenslotte elke schaker begrijpt voor zichzelf wat een pion voordeel betekent. Dan is de keuze snel gemaakt om terug naar het oude terug te keren.

    BeantwoordenVerwijderen
  7. De huidige programma's zitten er wel eens naast. Ja maar dat is toch eerder de zeer grote uitzondering. Je mag niet vergeten dat voor TCEC iemand bijna dag en nacht bezig is met openingen te selecteren die voor schaakprogramma's lastig zijn. Als vandaag Stockfish +2 aangeeft, dan mag je er vrij zeker van zijn dat de stelling gewonnen is.

    BeantwoordenVerwijderen
  8. "geeft Leela ook bij langere bedenktijd nog 83.h8D aan als gelijk staand (+0.04)"
    Op mijn beide computers geeft Leela geen 83.h8D aan en toont onmiddellijk mat in 5 na het spelen van de zet. Ik gebruikte Leela V0.27.0

    BeantwoordenVerwijderen
  9. "Studer gaf terecht aan dat begrip veel belangrijker was dan één optimale zet te spelen (zonder in te zien waarom)."
    Als je een stelling selecteert om een begrip uit te leggen en die evaluatie wordt onderuit gehaald door een computer dan moet je kunnen toegeven dat je beter een andere stelling had genomen om het begrip uit te leggen. Dus nu lijkt het mij meer dat Studer moeilijk kritiek op zijn publicaties kan verdragen.
    Ik ben het natuurlijk eens dat we een computer niet kunnen imiteren maar een evaluatie meegeven die niet klopt, lijkt mij evenmin een correcte didactiek. In mijn analyses ben ik bikkelhard voor mezelf. Als de 3500 computer mij vertelt dat ik een fout gemaakt heb dan heb ik een fout gemaakt zelfs als die eigenlijk onvermijdbaar was als mens.

    Ik ben benieuwd naar deel 2 wat je wel leert van computerevaluaties.

    BeantwoordenVerwijderen
  10. HK5000

    Het klopt. Laatst blunderde ik 1 pion en de evaluatie ging meteen naar -6, zonder dat er in de eerste zetten een plan was om ook maar een stuk te winnen. Ik begreep wel dat die pionblunder niet goed was, maar -6? Wat betekent dat?

    Noli135

    BeantwoordenVerwijderen