maandag 13 mei 2024

Is/ was het ratingsysteem kapot?

Veel Belgen begrijpen niet waarom fide en de Belgische bond heel recent een drastische elo-correctie hebben doorgevoerd. Er wordt niet echt geklaagd want extra elopunten zijn altijd leuk om te krijgen maar velen vinden het vreemd dat ze nu meer elo hebben dan 10 of zelfs 20 jaar geleden.

Nu dat sentiment zou wel eens kunnen veranderen in de nabije toekomst wanneer steeds meer spelers beseffen dat de extra elo voor hen een vergiftigd geschenk was. Ik heb de Belgische ratingverantwoordelijke er voor gewaarschuwd en we hebben na slechts 2 klassementen reeds de eerste slachtoffers van de decompressie. Spelers die velen jaren een rating gehad hebben, zijn nu plots ongekwoteerd.

Pierre Valembois is 1 van de eerste slachtoffers van de decompressie

Ik voorspel dat het de start is van een golf van (vooral) oudere spelers die als grof huisvuil gedumpt worden door de fide. Collateral damage om een nieuwe deflatie te vermijden? Ik heb zeer sterke twijfels of dit een juiste strategie is. Veel clubs zouden wel eens belangrijke vrijwilligers kunnen verliezen want de hogere elo's zijn veelal enkel bezig met zichzelf. Daarnaast is het symptoombestrijding en is het zeker geen definitieve oplossing voor inflaties/ deflaties in de toekomst van het ratingsysteem.

Anderzijds besef ik sinds mijn laatste open tornooi in Mariënbad dat we evenmin de problemen met de deflatie nog verder konden negeren. Eerlijk gezegd dacht ik tot dan toe dat wie hard werkt aan het schaken, geen ratingverlies hoeft te vrezen van ondergekwoteerde spelers. Dat was mij de voorbije jaren in verscheidene tornooien telkens gelukt tot dus Mariënbad 2024. Daar zag en ondervond ik voor het eerst hoe dramatisch een ontspoord ratingsysteem kan zijn voor spelers en tornooi.

Nog voor de 1ste zet werd gespeeld, wist ik al dat het tornooi anders zou zijn dan alle andere die ik ooit had gespeeld. Het begon al met de paringen van de eerste ronde. Ik vermoed dat zeer weinigen zich voorbereiden voor de 1ste ronde op basis van een voorlopige deelnemerslijst want je hebt altijd spelers die laatste moment aanmelden en afmelden. Bovendien wordt het kleur geloot en moet je dus op beide kleuren voorbereiden zonder voorkennis van de loting. M.a.w. enkel omdat ik sowieso moest wachten, keek ik al eens naar het repertoire van  Thomas Hellmann die ik in een Zwitsers tornooi theoretisch als tegenstander volgens de voorlopige deelnemerslijst moest krijgen.
Mijn summiere voorbereiding op beide kleuren voor Thomas Hellmann

Ik heb nog nooit succes gehad met mij te baseren op de voorlopige deelnemerslijst maar deze keer keek ik toch heel raar op dat ik meer dan 100 elopunten te optimistisch was geweest. Ik vernam enkele minuten voor het tornooi begon, er minstens 10 hogere elo's zich hadden teruggetrokken waardoor het tornooi plots een pak minder sterk was bezet.
Hogere elo's haken massaal af in 2024

Angsthazen of wist men wat er ging gebeuren met de overgebleven hogere elo's? Het werd op uitzondering van een Indiër en een Pool een waar elobloedbad voor de top 10. Slechts 3 van de top 10 spelers eindigde in de top 10. 3 van de top 10 gaven 1 of meerdere forfaits.
Ondanks slechts K-factor 20 zien we zeer grote eloverliezen bij de top 10

Zelfs ondergekwoteerde spelers kloegen over dat ze te weinig rating konden verdienen in Mariënbad (herinner mijn artikel Hoe belangrijk is elo? over spelers die op elojacht waren). In ronde 8 won ik van een duidelijk ondergekwoteerde jeugdspeler die zelfs 41 elo verloor. Na het tornooi hoorde ik enkele ouders vertellen dat ze niet meer zouden terugkomen omdat hun kinderen te weinig rating hadden gewonnen. Sommige spelers speelden voor het tornooi van Mariënbad ook in Praag en je ziet heel duidelijk in onderstaand overzicht wat een onevenwicht in ondergekwoteerde spelers kan doen op de resultaten.
Verschil elowinst/ verlies tussen Mariënbad en Praag = 27.

Beide Tsjechische tornooien werden na elkaar in dezelfde maand gespeeld dus hetzelfde eloklassement werd gebruikt voor beide. Gemiddeld werd in Mariënbad 10 elo verloren en in Praag 17 elo gewonnen door de spelers. De grootste individuele verschillen (meer dan 40 elo) heb ik in oranje aangeduid en zijn telkens in het voordeel van Praag. Dit lijkt mij te toevallig om het aan statistische ruis te kunnen attribueren.

Dan is natuurlijk de vraag hoe kan zoiets verklaard worden. Waar komen al die onderkwoteerde spelers vandaan? Op reddit stond enkele maanden geleden een heel interessante tabel over de mediaanratings in de diverse landen en die laat uitschijnen dat leeftijd zeker niet het enige is dat een rol speelt in dit verhaal.
Meer dan 600 elo verschil voor de mediaan tussen de sterkste en zwakste landen.

Dat India op de voorlaatste plaats met een mediaan van 1223 elo staat is op zijn zachtst gezegd vreemd. Echter het is minder vreemd als je weet dat slechts een heel klein percentage van de Indiërs over de financiële middelen beschikt om naar het buitenland te reizen en daar elo te winnen. M.a.w. veel landen hebben hun eigen eco-systeem betreffende elo die nauwelijks of niet kan worden beïnvloed door andere landen.

Hoe groot de impact kan zijn door de eloverschillen tussen de landen op een individuele rating, zag ik o.a. in het fideprofiel van de Koeweitse 16 jarige Meshal Alhejab (mijn tegenstander in ronde 4 van Mariënbad). Ik vermoed dat hij altijd tornooien in EU-landen zou kiezen indien geld of tijd geen rol zou spelen.
Schaakprestaties in het voorbije jaar van Meshal Alhejab

Het verschil in Meshal's prestaties tussen EU landen en andere landen is gigantisch en kan opnieuw onmogelijk door statistische ruis worden verklaard. Het bevestigt nogmaals wat ook een artikel van Chessbase al enkele jaren geleden ons vertelde: Why do some countries always gain and other always lose rating points?

Dat fide deze problematiek compleet negeert getuigt niet perse van kwade wil maar wellicht dat hiervoor geen makkelijke oplossing bestaat. Ik kan mij voorstellen dat je nooit een voorstel goedgekeurd krijgt waarin het ene land punten moet geven aan een ander land zonder partijen te spelen.

Met de recente elocorrectie zullen de verschillen met 40% verkleind zijn maar dat is uiteraard onvoldoende. Tussen sommige landen betekent dit nog steeds meer dan 300 punten verschil voor de mediaan. Of het ratingsysteem dit kleiner verschil nu wel vanzelf zal rechttrekken, is erg twijfelachtig. Het ratingsysteem was kapot en ik vind het nog veel te vroeg om het nu al gezond te verklaren.

Brabo

maandag 6 mei 2024

Computerevaluaties deel 3

Op mijn vorig artikel kwam er een interessante reactie van een anonieme lezer: "Moeten we wakker liggen van vuile-streek-openingen?" Ik herinner mij een gelijkaardige reactie enkele jaren geleden van een ouder die duidelijk geëmotioneerd was na verlies van zijn zoon tegen een vuile-streek-opening: "Hoe is het mogelijk dat een ervaren schaker zich verlaagt tot zulk smerig soort schaken? Dat is een pure verspilling van onze tijd en energie. Ik hoop dat we dit nooit nog zullen meemaken."

Ik vermoed dat ik toen olie op het vuur gegooid heb door te antwoorden dat dit soort afbraakschaak (?) wellicht nog geregeld in de toekomst zou gebeuren. Trouwens vandaag weten we vrij zeker dat perfect schaak naar remise leidt dus als je wilt winnen dan moet je fouten trachten uit te lokken. Dat houdt risico's nemen in en iedereen geeft daar zijn eigen draai aan.

Bovendien krijgt de vuile-streek-speler vaak gelijk met zijn keuze. Het feit dat ik online 95 keer het Stafford-gambiet tegenkreeg in de voorbije jaren, betekent zonder twijfel dat het meer loont dan niet voor mijn tegenstanders om het te spelen. Dat duidt op 2 oorzaken. 
  1. Het gros van de spelers ligt evenmin wakker van vuile-streek-openingen en doet geen moeite om ze eens te bestuderen. 
  2. De weerleggingen van die vuile-streek-openingen kunnen de meeste spelers zonder hulp niet zelfstandig ontdekken.

Of wat te denken van de onderstaande statistieken die ik kon destilleren over het minder extreem Italiaans-Dubov-gambiet die ik in het artikel mode deel 3 besprak. Ik had zowel in kwantiteit (frequentie gespeelde partijen) als kwaliteit (score) een veel groter verval verwacht.

M.a.w. ik ben het dus helemaal niet eens dat je jezelf een dienst bewijst door vuile-streek-openingen te negeren. Opgeven zoals de sterke Azerbeidzjaanse grootmeester Mamedov eens deed na 1.e4 g5 is in een onbelangrijk online blitzpartijtje misschien nog een optie (ik breek soms ook online een partij af wanneer iemand met 1.a3 begint) maar zoiets laat een organisatie/ een arbiter niet toe in bordschaken.

Nee er zit niets anders op dan je huiswerk te maken telkens je een vuile-streek-opening tegenkomt want enkel zo hoef je er echt niet meer wakker van te liggen. Ik weet dat dit makkelijker gezegd is dan gedaan want zelfs als hardwerkende amateurschaker (zie bv mijn artikel uit 2023 Paranoia) geraak ik soms niet op tijd mee met alle ontwikkelingen (zie bv mijn artikel uit 2022 Powerplay). Het blijft een eeuwige wedloop maar is dat net niet ook het mooie aan het schaken?

Anderzijds wil ik dit "titanenwerk" ook relativeren. Sinds de neurale netwerken (2019) beschikken we over engines die in een mum van tijd de weerlegging van een vuile-streek-opening kunnen aantonen. Trouwens dat is niet iets wat enkel geldt voor dit soort extreme openingen. Vandaag zie ik de huidige generatie topengines in 99,9% van de openingen ons de kritieke/ beste zetten aantonen. Dit gegeven heeft recent mijn openingsaanpak duidelijk ook beïnvloed. Meer dan ooit link ik mijn openingskeuzes aan de computerevaluaties en dat is niet perse een verstandige evolutie.

In het recente artikel Spatiebalk deel 2 toonde ik aan dat ik hierdoor nog voorspelbaarder ben geworden dan voorheen maar erger is dat ik ook geregeld in zeer lastig spelende stellingen terechtkom. Onderstaande stelling stond in de eerste ronde van Mariënbad 2024 op mijn bord en kwam rechtstreeks uit een openingsanalyse die ik had gemaakt begin 2022.
Zwart aan zet.

Ik wist tijdens de partij dat de computer dit als een gelijke stelling beschouwt (exact 0.00 volgens de laatste Stockfish) maar zwarts positie ziet er afschuwelijk uit. Zwart heeft een vreselijke pionnenstructuur, een verschrikkelijk slechte loper en waar is het tegenspel? Het is niet de bedoeling van dit artikel om uit te leggen waarom 0.00 desalniettemin correct is maar je snapt wel dat het zwart is die flink uit de pijp moet komen om de 0.00 te bewijzen.

In mijn artikel Identiteitsfraude toonde ik aan dat ik de partij won met enig geluk want de tijdnood liep maar net goed af. Zo gaat het zeker niet elke keer en daar moest ik niet lang voor wachten. In de 9de ronde van Mariënbad 2024 ging ik slechts 2 zetten na het beëindigen van mijn partijvoorbereiding heel zwaar in de fout.
Een klein voordeeltje voor zwart (tussen -0,4 en -0,5 zegt de laatste Stockfish) maar ik wist reeds vooraf dat dit niet evident zou zijn om aan het bord te bewijzen. Het is opnieuw een stelling waarvan het heel lastig is om te begrijpen hoe zwart met zijn ingesloten slechte loper uberhaupt beter kan staan. Zwart heeft evenmin  concrete aanknopingspunten in de witte stelling om op te spelen. Ik dacht dat het +500 elopuntenverschil wel voldoende marge was om enig risico te nemen maar dat viel flink tegen (ook al omdat mijn tegenstandster ver boven haar elo speelde gedurende het hele tornooi).

Welke lessen kunnen we hieruit trekken? Dat is volgens mij geen zwart-wit verhaal. Het is zeker niet zo dat ik tijdens het analyseren van openingen mij niet realiseer dat er meer is in de bordpraktijk dan enkel de computerevaluaties. 
  1. Moet je een opening overboord gooien omdat je 1 vertakking niet goed begrijpt?  Er zijn geen garanties dat het gras groener is elders.
  2. Moet ik meer variëren in mijn repertoire zodat ik beter kan anticiperen? Ik heb nu al te weinig tijd om 1 repertoire te onderhouden. Bovendien riskeer je ook zelf meer verrassingen als je veel varieert (zie Tom in het vorig artikel). 
  3. Meer tijd spenderen aan de lastig spelende stellingen om de computerevaluaties beter te begrijpen is enkel haalbaar indien het aantal beperkt blijft en het niet tijdens een partijvoorbereiding moet gebeuren. 
Tenslotte merk ik op dat zelfs voor de wereldtoppers de praktische interpretatie van de computerevaluaties een interessant speelterrein blijft om elkaar de loef af te steken in de opening.

Brabo