Kommentar 1 von Heinz van Kempen
Hier versuchen wir, auf die Unterschiede von CEGT 1 und 2 einzugehen und dass es
notwendig ist, wenigstens 1000 Partien pro Engine zu spielen, um irgendwelche Schlussfolgerungen
zu ziehen, denn dann haben wir statistische Abweichungen von ungefähr
plus/minus 18 Elopunkten, was immer noch recht viel ist.
Also:
CEGT 1 und 2 wurden auf den gleichen Computern gespielt, wobei
mit allen Nunn Positionen und einigen allgemeinen Büchern ein weites Spektrum
abgedeckt wurde. Die Gegner waren
teilweise unterschiedlich, aber dies allein erklärt nicht die großen
Unterschiede, die wir nach je über 500 Partien für jede Engine in CEGT 1 und 2
haben. Diese Unterschiede beruhen auf statistischen Abweichungen, die natürlich
noch ausgeprägter mit nur 300, 200 oder gar 100 Partien für jede Engine sind.
CEGT 1 4080
Partien, 16 Engines, 510 Partien für jede Engine
CEGT 2 5202
Partien, 18 Engines, 578 Partien für jede Engine
insgesamt
1088 Partien für jede top engine.
Ähnlichkeiten
und auffallende Unterschiede:
Shredder 9 dominierte
in beiden Turnieren. Die ELO nach 1088 Partien ist nun exakt 50 Punkte höher
verglichen mit der nächstbesten Engine Fritz
8 Bilbao.
Junior 9 schien nach
CEGT 1 die zweitbeste Engine zu sein und erzielte 17,5 Punkte aus den Partien
mehr als Fritz 8, aber dann in CEGT 2 erzielte die gleiche Fritz 8 Version 41
Punkte mehr aus den Partien als Junior 9. Fast unglaublich!!! Nun ist das Rating
für Fritz aus den kombinierten Turnieren CEGT 1 und 2 15 Punkte höher als für
Junior 9.
Hiarcs und Chess Tiger gleich gut in beiden
CEGTīs, aber es ist auffällig, dass Chef Tiger insgesamt viel besser auf Athlon
CPUīs punktet als auf Pentium
Gandalf 6, wirklich
seltsam. Platz 4 in CEGT 1 und 15,5 Punkte mehr erzielt als Hiarcs. Aber nur
Platz 9 in CEGT 2 und 23,5 Punkte weniger in der Gesamttabelle verglichen mit
Hiarcs 9
Ruffian
2.1.0 in beiden Turnieren hinter den meisten anderen kommerziellen
List nur Platz 10 in CEGT 1, aber Platz 6 in der Gesamttabelle
von CEGT 2 nach 578 Spielen und besser als dopt und Gandalf dort
ProDeo 1.1 mit einer
guten Performance in beiden. Nach 1088
Partien für jede haben wir nur einen Punkt ELO-Unterschied zwischen List
und ProDeo und würden auch nach 5000 Partien für beide nicht sagen können,
welche die beste Amateurengine ist.
Chessmaster
Steadfast ist 32 Elopunkte besser als CMX Yoda, aber mit nur über 500
Partien für jedes Setting wäre es nicht korrekt zu behaupten, dass das Setting
besser ist. Die Irrtumswahrscheinlichkeit (error bars) ist noch zu hoch.
SOS 5 startete
furios in CEGT 1 und lange Zeit sah es so aus, als wäre dies der beste Amateur.
Aber nach 400, 600, 800 Partien fiel die Engine mehr und mehr ab und wurde von
Fruit überholt, das besser wurde, je länger das Turnier dauerte. Jedenfalls ist
SOS 5 nach 1088 Partien besser als Aristarch 4.50, was doch eine beträchtliche
Steigerung gegenüber SOS 4 bedeutet.
Nachdem wir solche Unterschiede sehen, wagen wir es nicht,
Schlussfolgerungen für die Engines zu ziehen, wo wir erst 578 Partien je Engine
bisher haben.
Wenn wir all dies berücksichtigen und unabhängig davon ob Blitz
oder längere Zeitkontrollen, wie wir sie benutzen, so ist es beispielsweise
absurd, nach nur 100 Partien für eine Engine zu behaupten, daß diese um 50
ELO-Punkte verbessert sei oder das man schon sehen könne, daß meinetwegen eine
Engine nicht verbessert wurde.
Ein
Beispiel:
Wir testen Engine X Version 3.0 und spielen 100 Partien gegen
verschiedene Gegner und wir testen Engine X Version 4.0 und spielen wieder hundert Partien unter den
gleichen Bedingungen. Zuerst bekommen wir nach je hundert Partien das exakt
gleich Rating und wollen behaupten, daß es keine Verbesserung gab. Beim zweiten
Durchgang mit je 100 Partien kann es durchaus sein, daß Version 4.0 120
ELO-Punkte besser abschneidet und wir sind begeistert und beim dritten Mal ist
die alte Version 120 Punkte besser und wir sind enttäuscht. Aber all dies ist
innerhalb der normalen statistischen Verteilungen, denn die
Irrtumswahrscheinlichkeit bei 100 Partien je Engine liegt bei +- 60 Punkten.
Und dann gibt es noch die 5% der Engines, die hier ganz aus dem statistisch
wahrscheinlichen Rahmen fallen. Vielleicht macht dies deutlich, wie schwierig
es überhaupt ist, Schlussfolgerungen zu ziehen.
Darum suchen wir weiter nach der "Wahrheit", die es
wahrscheinlich nicht gibt und vieles ist abhängig von GUI, Eröffnungswahl,
gewählten Gegnern, Zeitkontrollen, CPU und Erdstrahlen :-). Und darum posten
wir keine Sensationsergebnisse für neue Engines nach relativ wenigen Partien.
Wenn wir also nicht die Lust und Energie verlieren, so spielen wir noch ein
paar Monate weiter und es mag sein, daß wir nach CEGT 3 1500 oder 2000 Partien
je für die Top Engines haben und auch mehr als 1000 Partien für immer mehr
starke Amateure. Diese Partienzahl wollen wir als Minimum in CEGT geben.
Andererseits mag dies für "normale" Leute verrückt
erscheinen, auch wenn einige von euch, die selbst testen, sicher verstehen,
wieviel Spaß es macht, diese Engine Turniere zu spielen, zu vergleichen,
auszuwerten und die Partien zu beobachten. Wir sollten allerdings aufhören,
bevor die Männer in den weißen Kitteln mit den Zwangsjacken für uns kommen.
CEGT 3 ist auf 6 bis vielleicht bald 10 schnelleren Computern
von vier Testern gestartet. Ergebnisse von etwas mehr als 100 Ktulu Partien
bisher werden aus oben genannten Gründen noch nicht preisgegeben. Da warten wir
lieber, bis wir ein paar hundert mehr haben.