Kommentar 2 von Heinz van Kempen
Da
das Interesse an Ktulu doch sehr
hoch zu sein scheint, versuchen wir mal einen ersten vorsichtigen Eindruck von
Ktulu 7.0 zu geben, wobei auch am Testverlauf gezeigt werden soll, wie wechselhaft
es aufgrund von statistischen Zufälligkeiten und Verteilungen zugehen kann.
Ktulu ist auch wirklich eine Engine, die für große Abweichungen prädestiniert
ist. Niemand erwartete wirklich, dass sie 100 Punkte besser ist als die
Vorgängerversion, ausgenommen von einigen wenigen, die immer auf Sensationen
warten. Hatten wir überhaupt jemals eine Engine, die auf bereits so hohem Level
sich um 100 Punkte verbessern konnte? Aber vielleicht ist sie gar nicht so weit
von diesen 100 Punkten Steigerung weg. Mal sehen.
Einige
von euch haben sicher schon unseren Vergleich von CEGT 1 und 2 gelesen und wir
unterschiedlich selbst Ergebnisse mit jeweils über 500 Partien z.B. für
ausgewogenere Engines wie Fritz, Junior und Gandalf verlaufen können.
Glaubt
noch jemand daran, dass 150 Partien je Engine schon aufschlussreiche Schlüsse
zulassen?
Wir
sind inzwischen fest überzeugt, dass es mindestens 1000 Partien pro Engine
braucht, um gut fundierte Ergebnisse und ein relativ verlässliches Rating zu
haben. Es geht uns keinesfalls darum, andere Tester zu kritisieren. Wir mögen
alle Turniere und Tests, die in den verschiedenen Foren veröffentlich werden
und achten auch auf kleinere Tests und Matches, denn alles zusammengenommen
gibt doch erst mit vielen Mosaiksteinchen ein gutes Bild.
Wir
sahen bereits viele gepostete Ergebnisse, einige sensationell, andere
durchschnittlich und einige schlechtere, wo auch von Bugs unter Winboard
berichtet wurde und darüber, dass Rahman bereits an einem Bugfix arbeitet.
Dann
spielten wir die ersten 150 Partien für Ktulu 7.0 in CEGT 3 und danach hatten
wir die folgende unglaubliche und sensationelle Ratingliste
(kombinierte
Ergebnisse von Charles, Christian und mir mit einer Zeitkontrolle 40/40
angepasst auf 2 Ghz Pentium CPU mit Crafty benchmark, genau wie bei AEGT):
|
|
Program |
Elo |
+ |
- |
Games |
Score |
Av.Op. |
Draws |
|
1 |
Shredder 9 |
2750 |
17 |
17 |
1237 |
69.8 % |
2604 |
28.2 % |
|
2 |
Fritz 8 |
2699 |
18 |
18 |
1088 |
62.1 % |
2613 |
28.6 % |
|
3 |
Ktulu 7.0 |
2693 |
49 |
48 |
150 |
67.3 % |
2567 |
30.7 % |
|
4 |
Junior 9 |
2682 |
16 |
16 |
1238 |
60.4 % |
2609 |
29.9 % |
|
5 |
Hiarcs 9 |
2653 |
17 |
17 |
1088 |
55.3 % |
2616 |
33.1 % |
|
6 |
Gandalf 6.0 |
2648 |
17 |
17 |
1088 |
54.6 % |
2616 |
31.4 % |
|
7 |
Chess Tiger 15.0 |
2643 |
16 |
16 |
1088 |
53.8 % |
2617 |
36.9 % |
|
8 |
CM 10000 Steadfast |
2639 |
24 |
24 |
510 |
52.5 % |
2622 |
34.7 % |
|
9 |
Ruffian 2.1.0 |
2629 |
17 |
17 |
1088 |
51.7
% |
2618 |
32.9
% |
|
10 |
List
512 |
2618 |
17 |
17 |
1088 |
50.0
% |
2618 |
33.2
% |
|
11 |
Pro
Deo 1.1 |
2617 |
17 |
17 |
1088 |
49.8
% |
2618 |
29.7
% |
|
12 |
Spike
0.9 |
2616 |
47 |
47 |
150 |
56.0
% |
2574 |
29.3
% |
|
13 |
CMX
Yoda |
2607 |
23 |
23 |
578 |
49.0
% |
2614 |
33.4
% |
|
14 |
Fruit
2.0 |
2589 |
17 |
17 |
1088 |
45.5 % |
2620 |
29.0 % |
|
15 |
SOS 5 for Arena |
2586 |
17 |
17 |
1088 |
45.1 % |
2620 |
34.4 % |
|
16 |
Deep Sjeng 1.6 |
2580 |
26 |
26 |
510 |
43.4 % |
2626 |
28.4 % |
|
17 |
Aristarch 4.50 |
2577 |
17 |
17 |
1088 |
43.7 % |
2621 |
31.2 % |
|
18 |
SlowChess Blitz WV |
2572 |
20 |
20 |
728 |
45.0 % |
2607 |
36.7 % |
|
19 |
Ktulu 5.1 |
2562 |
26 |
26 |
510 |
40.8 % |
2627 |
28.6 % |
|
20 |
Thinker 4.7a |
2556 |
23 |
23 |
578 |
41.3
% |
2617 |
34.9
% |
|
21 |
DanChess
CCT7 |
2552 |
45 |
46 |
150 |
46.3
% |
2577 |
34.0
% |
|
22 |
Zappa
1.0 |
2549 |
47 |
47 |
150 |
46.3
% |
2574 |
30.0
% |
|
23 |
Anaconda
2.0.1 |
2549 |
21 |
21 |
728 |
41.4
% |
2609 |
33.7
% |
|
24 |
Delfi
4.5 |
2540 |
21 |
21 |
728 |
40.1 % |
2610 |
31.9 % |
|
25 |
Pharaon 3.2 |
2536 |
21 |
21 |
728 |
39.6 % |
2610 |
35.2 % |
|
26 |
AnMon5.50 |
2535 |
45 |
46 |
150 |
43.3 % |
2581 |
34.7 % |
|
27 |
Naum 1.7 |
2522 |
53 |
53 |
104 |
42.3 % |
2576 |
38.5 % |
|
28 |
Patriot 1.3.0 |
2503 |
27 |
27 |
510 |
32.4 % |
2631 |
25.5 % |
|
29 |
Yace 0.99.87 |
2465 |
49 |
50 |
149 |
33.6 % |
2584 |
26.8 % |
|
30 |
Amyan 1.595 |
2447 |
56 |
57 |
114 |
31.6 % |
2581 |
28.1 % |
Was
hinderte uns diese Ergebnisse bereits in allen Foren bekannt zu geben, nur ein
paar Tage nachdem Ktulu erschienen war? Hauptsächlich das in vielen Jahren des
Testens gesammelte Wissen und das wir uns bewusst waren, daß wir schon ähnliche
Fälle zuvor hatten, wenn auch nicht so extrem ausgeprägt.
Also
was haben wir hier?
Eine
neue Sensation, eine Engine mit einer Performance auf dem Level der besten von
ChessBase, mehr als 130 Punkte besser als Ktulu 5.1 und die neue Nummer 3 in
unserer Ratingliste?
Nein,
dachten wir, am wahrscheinlichsten ist es, daß diese Engine zwar sehr gut und
stark verbessert ist, aber zufällig mit sehr guten Ergebnissen startete, so
etwa als wenn man zehnmal eine Münze wirft und in sieben Fällen landet sie mit
der Rückseite nach oben auf dem Boden. Also beschlossen wir, vorsichtig zu sein
und die Ergebnisse nicht zu veröffentlichen, weil wir wollen, daß die Leute auf
unsere Ratingliste vertrauen, was nicht der Fall wäre, wenn sie dann sähen, daß
Ktulu hinterher wie ein Stein fällt. Was war noch möglich nach 150 Partien?
Seht selbst...
Andererseits
dachten wir bei einem Blick auf die error bars: selbst wenn Ktulu noch um das
Maximum fällt, so würde ja immer noch eine ELO von 2645 verbleiben (2693-48),
was 83 Punkte besser wäre als Ktulu 5.1 und eine sehr bemerkenswerte
Verbesserung auf diesem hohen Niveau, wo üblicherweise ein einziger Ratingpunkt
viel Arbeit, Tests und das Entfernen von Bugs und Hinzufügen nützlicher neuer
Verbesserungen bedeutet.
Nun
kam das nächste doppelrundige Turnier und Ktulu erzielte nur 11 aus 26 gegen
Shredder, Junior und einige der besten Amateure (Ktulu wird in CEGT 4 auch
gegen Fritz, Hiarcs und Gandalf spielen). Was würde passieren, wenn wir nur
diese 26 Partien von Ktulu zur Ratingliste hinzufügen? Nicht viel, da wir zuvor
bereits 150 Partien hatten? Seht selbst:
|
|
Program |
Elo |
+ |
- |
Games |
Score |
Av.Op. |
Draws |
|
1 |
Shredder 9 |
2750 |
17 |
17 |
1239 |
69.9 % |
2604 |
28.2 % |
|
2 |
Fritz 8 |
2699 |
18 |
18 |
1088 |
62.1 % |
2613 |
28.6 % |
|
3 |
Junior 9 |
2683 |
16 |
16 |
1240 |
60.5 % |
2609 |
29.8 % |
|
4 |
Ktulu 7.0 |
2664 |
46 |
45 |
176 |
63.6 % |
2567 |
26.1 % |
|
5 |
Hiarcs 9 |
2653 |
17 |
17 |
1088 |
55.3 % |
2616 |
33.1 % |
|
6 |
Gandalf 6.0 |
2649 |
17 |
17 |
1088 |
54.6 % |
2617 |
31.4 % |
|
7 |
Chess Tiger 15.0 |
2643 |
16 |
16 |
1088 |
53.8 % |
2617 |
36.9 % |
|
8 |
CM 10000 Steadfast |
2639 |
24 |
24 |
510 |
52.5 % |
2622 |
34.7 % |
|
9 |
Ruffian 2.1.0 |
2629 |
17 |
17 |
1088 |
51.7 % |
2618 |
32.9 % |
|
10 |
List 512 |
2619 |
17 |
17 |
1088 |
50.0 % |
2618 |
33.2 % |
|
11 |
Pro Deo 1.1 |
2617 |
17 |
17 |
1088 |
49.8 % |
2619 |
29.7 % |
|
12 |
Spike 0.9 |
2614 |
47 |
47 |
152 |
55.9 % |
2573 |
28.9 % |
|
13 |
CMX Yoda |
2608 |
23 |
23 |
578 |
49.0 % |
2614 |
33.4 % |
|
14 |
Fruit 2.0 |
2589 |
17 |
17 |
1088 |
45.5 % |
2620 |
29.0 % |
|
15 |
SOS 5 for Arena |
2586 |
17 |
17 |
1088 |
45.1 % |
2620 |
34.4 % |
|
16 |
Deep Sjeng 1.6 |
2580 |
26 |
26 |
510 |
43.4 % |
2626 |
28.4 % |
|
17 |
Aristarch 4.50 |
2577 |
17 |
17 |
1088 |
43.7 % |
2621 |
31.2 % |
|
18 |
SlowChess Blitz WV |
2572 |
20 |
20 |
730 |
45.0 % |
2607 |
36.6 % |
|
19 |
Ktulu 5.1 |
2563 |
26 |
26 |
510 |
40.8 % |
2628 |
28.6 % |
|
20 |
Thinker 4.7a |
2557 |
23 |
23 |
578 |
41.3 % |
2617 |
34.9 % |
|
21 |
Anaconda 2.0.1 |
2549 |
21 |
21 |
730 |
41.4 % |
2609 |
33.6 % |
|
22 |
Zappa 1.0 |
2548 |
47 |
47 |
152 |
46.4 % |
2573 |
29.6 % |
|
23 |
DanChess CCT7 |
2547 |
45 |
45 |
152 |
45.7 % |
2576 |
33.6 % |
|
24 |
Delfi 4.5 |
2539 |
21 |
21 |
730 |
40.0 % |
2610 |
31.8 % |
|
25 |
Pharaon 3.2 |
2537 |
20 |
21 |
730 |
39.7 % |
2610 |
35.1 % |
|
26 |
AnMon5.50 |
2534 |
45 |
45 |
152 |
43.4 % |
2580 |
34.2 % |
|
27 |
Naum 1.7 |
2528 |
53 |
53 |
106 |
43.4 % |
2575 |
37.7 % |
|
28 |
Patriot 1.3.0 |
2503 |
27 |
27 |
510 |
32.4 % |
2632 |
25.5 % |
|
29 |
Yace 0.99.87 |
2466 |
49 |
50 |
151 |
33.8 % |
2583 |
26.5 % |
|
30 |
Amyan 1.595 |
2449 |
56 |
57 |
116 |
31.9 % |
2580 |
27.6 % |
Ktulu
verlor allein durch diese 26 Partien 29 Ratingpunkte und fiel auf Platz 4
zurück in unserer Liste. Aber achtet auch auf die error bars. In der Liste
zuvor sah es nach einem "garantierten" Rating von 2645 aus, nun haben
wir 2664, aber immer plötzlich einen möglichen Minuswert von immer noch 45
Punkten, der im schlechtesten Falle subtrahiert werden müsste.
Im
schlechtesten Falle? Nein, darauf können wir nicht vertrauen, denn es wurde
zuvor andere angegeben von ELOStat in der Liste die wir mit 150 Partien hatten.
Da sah es nach einem Minimum von 2645 aus, während es jetzt 2619 sein sollen.
Also
ist Ktulu eine dieser 5% Engines, die sich jeder statistischen
Wahrscheinlichkeit entziehen? Was sind die Gründe? Ist Ktulu so unausgewogen,
daß es einerseits mit taktischen Schlägen gegen die besten wie Shredder
gewinnen kann, andererseits gegen relativ schwächere Engines wegen einiger
Endspielschwierigkeiten verlieren kann? Diese individuellen Statistiken geben
wir gegen Ende des Berichts und auch ein Blick in die Partien sollte hier
hilfreich sein. Bisher gibt es gute Ergebnisse von Ktulu gegen Shredder und
Junior, aber auch Probleme gegen gewisse starke Amateure.
Fahren
wir fort. Das nächste double round robin. Wir waren längst neugierig und hatten
begonnen, die Ktulu Partien für die Turniere via gauntlets vorwegzuspielen.
Ktulu erzielte diesmal 14 aus 26. Nicht schlecht, aber nicht gut genug um das
Rating auf diesem immer noch sehr hohen Niveau zu halten. 8 Elopunkte gingen
verloren und Ktulu fiel auf Rang 5 zurück.
|
|
Program |
Elo |
+ |
- |
Games |
Score |
Av.Op. |
Draws |
|
1 |
Shredder 9 |
2750 |
17 |
17 |
1241 |
69.9 % |
2603 |
28.1 % |
|
2 |
Fritz 8 |
2698 |
18 |
18 |
1088 |
62.1 % |
2613 |
28.6 % |
|
3 |
Junior 9 |
2682 |
16 |
16 |
1242 |
60.5 % |
2608 |
29.8 % |
|
4 |
Hiarcs 9 |
2653 |
17 |
17 |
1088 |
55.3 % |
2615 |
33.1 % |
|
5 |
Ktulu 7.0 |
2652 |
43 |
42 |
202 |
62.4 % |
2565 |
24.8 % |
|
6 |
Gandalf 6.0 |
2648 |
17 |
17 |
1088 |
54.6 % |
2616 |
31.4 % |
|
7 |
Chess Tiger 15.0 |
2642 |
16 |
16 |
1088 |
53.8 % |
2616 |
36.9 % |
|
8 |
CM 10000 Steadfast |
2639 |
24 |
24 |
510 |
52.5 % |
2622 |
34.7 % |
|
9 |
Ruffian 2.1.0 |
2628 |
17 |
17 |
1088 |
51.7 % |
2617 |
32.9 % |
|
10 |
List 512 |
2618 |
17 |
17 |
1088 |
50.0 % |
2618 |
33.2 % |
|
11 |
Pro Deo 1.1 |
2616 |
17 |
17 |
1088 |
49.8 % |
2618 |
29.7 % |
|
12 |
Spike 0.9 |
2608 |
47 |
47 |
154 |
55.2 % |
2572 |
28.6 % |
|
13 |
CMX Yoda |
2607 |
23 |
23 |
578 |
49.0 % |
2613 |
33.4 % |
|
14 |
Fruit 2.0 |
2588 |
17 |
17 |
1088 |
45.5 % |
2619 |
29.0 % |
|
15 |
SOS 5 for Arena |
2586 |
17 |
17 |
1088 |
45.1 % |
2620 |
34.4 % |
|
16 |
Deep Sjeng 1.6 |
2580 |
26 |
26 |
510 |
43.4 % |
2626 |
28.4 % |
|
17 |
Aristarch 4.50 |
2576 |
17 |
17 |
1088 |
43.7 % |
2620 |
31.2 % |
|
18 |
SlowChess Blitz WV |
2570 |
20 |
20 |
732 |
44.9 % |
2606 |
36.5 % |
|
19 |
Ktulu 5.1 |
2562 |
26 |
26 |
510 |
40.8 % |
2627 |
28.6 % |
|
20 |
Thinker 4.7a |
2556 |
23 |
23 |
578 |
41.3 % |
2616 |
34.9 % |
|
21 |
Anaconda 2.0.1 |
2548 |
21 |
21 |
732 |
41.5 % |
2608 |
33.5 % |
|
22 |
Zappa 1.0 |
2547 |
46 |
47 |
154 |
46.4 % |
2572 |
29.2 % |
|
23 |
DanChess CCT7 |
2546 |
45 |
45 |
154 |
45.8 % |
2575 |
33.1 % |
|
24 |
Delfi 4.5 |
2538 |
21 |
21 |
732 |
40.0 % |
2609 |
31.8 % |
|
25 |
Pharaon 3.2 |
2537 |
20 |
21 |
732 |
39.8 % |
2608 |
35.1 % |
|
26 |
Naum 1.7 |
2532 |
52 |
52 |
108 |
44.0 % |
2574 |
38.0 % |
|
27 |
AnMon5.50 |
2529 |
45 |
45 |
154 |
42.9 % |
2579 |
33.8 % |
|
28 |
Patriot 1.3.0 |
2503 |
27 |
27 |
510 |
32.4 % |
2631 |
25.5 % |
|
29 |
Yace 0.99.87 |
2461 |
49 |
50 |
153 |
33.3 % |
2581 |
26.1 % |
|
30 |
Amyan 1.595 |
2453 |
55 |
56 |
118 |
32.6 % |
2579 |
28.0 % |
In
den nächsten 26 Partien erzielte Ktulu 13,5 Punkte aus 26 Partien und wieder
gingen 8 Elopunkte verloren. Ktulu fiel auf Rang 6, aber nahe an Gandalf.
Bisher haben wir die folgende Ratingentwicklung:
|
Anzahl Partien |
Rating |
Veränderung |
+ |
- |
|
150 |
2693 |
+15 |
49 |
48 |
|
176 |
2664 |
-29 |
46 |
45 |
|
202 |
2652 |
- 8 |
43 |
42 |
|
228 |
2644 |
- 8 |
40 |
40 |
Zwischen
Partie 150 und 254 gingen 52 Ratingpunkte verloren, fast unglaublich wieder. Würde
es weiter runtergehen? Nein, Ktulu hatte nun wieder gute Ergebnisse mit 15,
dann 15.5, 16 und und 16.5 Punkten aus jeweils 26 Partien. Dazu kamen neue sehr
gute Ergebnisse von Charles und Christian.
|
Anzahl Partien |
Rating |
Veränderung |
+ |
- |
|
96 |
2678 |
00 |
58 |
57 |
|
150 |
2693 |
+15 |
49 |
48 |
|
176 |
2664 |
-29 |
46 |
45 |
|
202 |
2652 |
- 8 |
43 |
42 |
|
228 |
2644 |
- 8 |
40 |
40 |
|
254 |
2641 |
- 3 |
38 |
38 |
|
280 |
2642 |
+ 1 |
36 |
26 |
|
306 |
2643 |
+ 1 |
34 |
34 |
|
319 |
2647 |
+ 3 |
34 |
33 |
|
|
Program |
Elo |
+ |
- |
Games |
Score |
Av.Op. |
Draws |
|
1 |
Shredder 9 |
2750 |
17 |
17 |
1263 |
70.0 % |
2602 |
28.2 % |
|
2 |
Fritz 8 |
2698 |
18 |
18 |
1088 |
62.1 % |
2612 |
28.6 % |
|
3 |
Junior 9 |
2682 |
16 |
16 |
1263 |
60.7 % |
2607 |
29.9 % |
|
4 |
Hiarcs 9 |
2652 |
17 |
17 |
1088 |
55.3 % |
2615 |
33.1 % |
|
5 |
Gandalf 6.0 |
2647 |
17 |
17 |
1088 |
54.6 % |
2615 |
31.4 % |
|
6 |
Ktulu 7.0 |
2647 |
34 |
33 |
319 |
61.8 % |
2564 |
26.3 % |
|
7 |
Chess Tiger 15.0 |
2642 |
16 |
16 |
1088 |
53.8 % |
2616 |
36.9 % |
|
8 |
CM 10000 Steadfast |
2638 |
24 |
24 |
510 |
52.5 % |
2621 |
34.7 % |
|
9 |
Ruffian 2.1.0 |
2628 |
17 |
17 |
1088 |
51.7 % |
2616 |
32.9 % |
|
10 |
List 512 |
2617 |
17 |
17 |
1088 |
50.0 % |
2617 |
33.2 % |
|
11 |
Pro Deo 1.1 |
2616 |
17 |
17 |
1088 |
49.8 % |
2617 |
29.7 % |
|
12 |
Spike 0.9a |
2607 |
44 |
43 |
175 |
54.9 % |
2573 |
29.7 % |
|
13 |
CMX Yoda |
2606 |
23 |
23 |
578 |
49.0 % |
2613 |
33.4 % |
|
14 |
Fruit 2.0 |
2588 |
17 |
17 |
1088 |
45.5 % |
2619 |
29.0 % |
|
15 |
SOS 5 for Arena |
2585 |
17 |
17 |
1088 |
45.1 % |
2619 |
34.4 % |
|
16 |
Deep Sjeng 1.6 |
2579 |
26 |
26 |
510 |
43.4 % |
2625 |
28.4 % |
|
17 |
Aristarch 4.50 |
2576 |
17 |
17 |
1088 |
43.7 % |
2620 |
31.2 % |
|
18 |
SlowChess Blitz WV |
2570 |
20 |
20 |
753 |
45.0 % |
2605 |
37.1 % |
|
21 |
DanChess CCT7 |
2553 |
43 |
43 |
175 |
46.6 % |
2577 |
30.3 % |
|
22 |
Anaconda 2.0.1 |
2547 |
20 |
20 |
753 |
41.4 % |
2607 |
33.6 % |
|
24 |
Pharaon 3.2 |
2537 |
20 |
20 |
753 |
40.0 % |
2608 |
34.5 % |
|
25 |
Delfi 4.5 |
2535 |
21 |
21 |
753 |
39.6 % |
2608 |
31.7 % |
|
28 |
Patriot 1.3.0 |
2502 |
27 |
27 |
510 |
32.4 % |
2630 |
25.5 % |
|
29 |
Amyan 1.595 |
2483 |
49 |
50 |
142 |
36.3 % |
2581 |
28.9 % |
Also
was werden wir nach 1000 Partien haben? Nichts ist so sicher wie die
Unsicherheit .
Im
Augenblick können wir nur folgendes sagen. Ktulu ist eine sehr gute Engine mit
besonders taktischen Stärken und es macht Spaß sich die Partien gegen die
besten anzusehen. Die Elosteigerung gegenüber Ktulu 5.1 in der CEGT Ratingliste
beträgt derzeit 85 ELO, was eine mehr als erwartete Verbesserung darstellt, es
ist für mich jedenfalls immer noch sensationell. Ob das nun nach viel mehr
Partien Rang 3, 4 oder 7 sein wird, wer weiß das jetzt schon genau und ist es
letztendlich so wichtig? Was wird die nächste Ktulu Version bringen?