Kommentar 1 von Heinz van Kempen

 

 

 

Hier versuchen wir, auf die Unterschiede von CEGT 1 und 2 einzugehen und dass es notwendig ist, wenigstens 1000 Partien pro Engine zu spielen, um irgendwelche Schlussfolgerungen zu ziehen, denn dann haben wir statistische Abweichungen von ungefähr plus/minus 18 Elopunkten, was immer noch recht viel ist.

 

Also:

CEGT 1 und 2 wurden auf den gleichen Computern gespielt, wobei mit allen Nunn Positionen und einigen allgemeinen Büchern ein weites Spektrum abgedeckt wurde. Die Gegner  waren teilweise unterschiedlich, aber dies allein erklärt nicht die großen Unterschiede, die wir nach je über 500 Partien für jede Engine in CEGT 1 und 2 haben. Diese Unterschiede beruhen auf statistischen Abweichungen, die natürlich noch ausgeprägter mit nur 300, 200 oder gar 100 Partien für jede Engine sind.

 

 

CEGT 1 4080 Partien, 16 Engines, 510 Partien für jede Engine

 

CEGT 2 5202 Partien, 18 Engines, 578 Partien für jede Engine

 

insgesamt 1088 Partien für jede top engine.

 

 

 

Ähnlichkeiten und auffallende Unterschiede:

 

 

Shredder 9 dominierte in beiden Turnieren. Die ELO nach 1088 Partien ist nun exakt 50 Punkte höher verglichen mit der nächstbesten Engine Fritz 8 Bilbao.

 

Junior 9 schien nach CEGT 1 die zweitbeste Engine zu sein und erzielte 17,5 Punkte aus den Partien mehr als Fritz 8, aber dann in CEGT 2 erzielte die gleiche Fritz 8 Version 41 Punkte mehr aus den Partien als Junior 9. Fast unglaublich!!! Nun ist das Rating für Fritz aus den kombinierten Turnieren CEGT 1 und 2 15 Punkte höher als für Junior 9.

 

Hiarcs und Chess Tiger gleich gut in beiden CEGTīs, aber es ist auffällig, dass Chef Tiger insgesamt viel besser auf Athlon CPUīs punktet als auf Pentium

 

Gandalf 6, wirklich seltsam. Platz 4 in CEGT 1 und 15,5 Punkte mehr erzielt als Hiarcs. Aber nur Platz 9 in CEGT 2 und 23,5 Punkte weniger in der Gesamttabelle verglichen mit Hiarcs 9

 

Ruffian 2.1.0 in beiden Turnieren hinter den meisten anderen kommerziellen

 

List nur Platz 10 in CEGT 1, aber Platz 6 in der Gesamttabelle von CEGT 2 nach 578 Spielen und besser als dopt und Gandalf dort

 

ProDeo 1.1 mit einer guten Performance in beiden. Nach 1088  Partien für jede haben wir nur einen Punkt ELO-Unterschied zwischen List und ProDeo und würden auch nach 5000 Partien für beide nicht sagen können, welche die beste Amateurengine ist.

 

Chessmaster Steadfast ist 32 Elopunkte besser als CMX Yoda, aber mit nur über 500 Partien für jedes Setting wäre es nicht korrekt zu behaupten, dass das Setting besser ist. Die Irrtumswahrscheinlichkeit (error bars) ist noch zu hoch.

 

SOS 5 startete furios in CEGT 1 und lange Zeit sah es so aus, als wäre dies der beste Amateur. Aber nach 400, 600, 800 Partien fiel die Engine mehr und mehr ab und wurde von Fruit überholt, das besser wurde, je länger das Turnier dauerte. Jedenfalls ist SOS 5 nach 1088 Partien besser als Aristarch 4.50, was doch eine beträchtliche Steigerung gegenüber SOS 4 bedeutet.

 

 

 

Nachdem wir solche Unterschiede sehen, wagen wir es nicht, Schlussfolgerungen für die Engines zu ziehen, wo wir erst 578 Partien je Engine bisher haben.

 

Wenn wir all dies berücksichtigen und unabhängig davon ob Blitz oder längere Zeitkontrollen, wie wir sie benutzen, so ist es beispielsweise absurd, nach nur 100 Partien für eine Engine zu behaupten, daß diese um 50 ELO-Punkte verbessert sei oder das man schon sehen könne, daß meinetwegen eine Engine nicht verbessert wurde.

 

Ein Beispiel:

 

Wir testen Engine X Version 3.0 und spielen 100 Partien gegen verschiedene Gegner und wir testen Engine X Version 4.0 und  spielen wieder hundert Partien unter den gleichen Bedingungen. Zuerst bekommen wir nach je hundert Partien das exakt gleich Rating und wollen behaupten, daß es keine Verbesserung gab. Beim zweiten Durchgang mit je 100 Partien kann es durchaus sein, daß Version 4.0 120 ELO-Punkte besser abschneidet und wir sind begeistert und beim dritten Mal ist die alte Version 120 Punkte besser und wir sind enttäuscht. Aber all dies ist innerhalb der normalen statistischen Verteilungen, denn die Irrtumswahrscheinlichkeit bei 100 Partien je Engine liegt bei +- 60 Punkten. Und dann gibt es noch die 5% der Engines, die hier ganz aus dem statistisch wahrscheinlichen Rahmen fallen. Vielleicht macht dies deutlich, wie schwierig es überhaupt ist, Schlussfolgerungen zu ziehen.

 

Darum suchen wir weiter nach der "Wahrheit", die es wahrscheinlich nicht gibt und vieles ist abhängig von GUI, Eröffnungswahl, gewählten Gegnern, Zeitkontrollen, CPU und Erdstrahlen :-). Und darum posten wir keine Sensationsergebnisse für neue Engines nach relativ wenigen Partien. Wenn wir also nicht die Lust und Energie verlieren, so spielen wir noch ein paar Monate weiter und es mag sein, daß wir nach CEGT 3 1500 oder 2000 Partien je für die Top Engines haben und auch mehr als 1000 Partien für immer mehr starke Amateure. Diese Partienzahl wollen wir als Minimum in CEGT geben.

 

Andererseits mag dies für "normale" Leute verrückt erscheinen, auch wenn einige von euch, die selbst testen, sicher verstehen, wieviel Spaß es macht, diese Engine Turniere zu spielen, zu vergleichen, auszuwerten und die Partien zu beobachten. Wir sollten allerdings aufhören, bevor die Männer in den weißen Kitteln mit den Zwangsjacken für uns kommen.

 

CEGT 3 ist auf 6 bis vielleicht bald 10 schnelleren Computern von vier Testern gestartet. Ergebnisse von etwas mehr als 100 Ktulu Partien bisher werden aus oben genannten Gründen noch nicht preisgegeben. Da warten wir lieber, bis wir ein paar hundert mehr haben.