Kommentar 2 von Heinz van Kempen

 

 

Da das Interesse an Ktulu doch sehr hoch zu sein scheint, versuchen wir mal einen ersten vorsichtigen Eindruck von Ktulu 7.0 zu geben, wobei auch am Testverlauf gezeigt werden soll, wie wechselhaft es aufgrund von statistischen Zufälligkeiten und Verteilungen zugehen kann. Ktulu ist auch wirklich eine Engine, die für große Abweichungen prädestiniert ist. Niemand erwartete wirklich, dass sie 100 Punkte besser ist als die Vorgängerversion, ausgenommen von einigen wenigen, die immer auf Sensationen warten. Hatten wir überhaupt jemals eine Engine, die auf bereits so hohem Level sich um 100 Punkte verbessern konnte? Aber vielleicht ist sie gar nicht so weit von diesen 100 Punkten Steigerung weg. Mal sehen.

 

Einige von euch haben sicher schon unseren Vergleich von CEGT 1 und 2 gelesen und wir unterschiedlich selbst Ergebnisse mit jeweils über 500 Partien z.B. für ausgewogenere Engines wie Fritz, Junior und Gandalf verlaufen können.

Glaubt noch jemand daran, dass 150 Partien je Engine schon aufschlussreiche Schlüsse zulassen?

 

Wir sind inzwischen fest überzeugt, dass es mindestens 1000 Partien pro Engine braucht, um gut fundierte Ergebnisse und ein relativ verlässliches Rating zu haben. Es geht uns keinesfalls darum, andere Tester zu kritisieren. Wir mögen alle Turniere und Tests, die in den verschiedenen Foren veröffentlich werden und achten auch auf kleinere Tests und Matches, denn alles zusammengenommen gibt doch erst mit vielen Mosaiksteinchen ein gutes Bild.

 

Wir sahen bereits viele gepostete Ergebnisse, einige sensationell, andere durchschnittlich und einige schlechtere, wo auch von Bugs unter Winboard berichtet wurde und darüber, dass Rahman bereits an einem Bugfix arbeitet.

 

Dann spielten wir die ersten 150 Partien für Ktulu 7.0 in CEGT 3 und danach hatten wir die folgende unglaubliche und sensationelle Ratingliste

(kombinierte Ergebnisse von Charles, Christian und mir mit einer Zeitkontrolle 40/40 angepasst auf 2 Ghz Pentium CPU mit Crafty benchmark, genau wie bei AEGT):

 

 

 

Program

Elo

+

-

Games

Score

Av.Op.

Draws

1

Shredder 9

2750

17

17

1237

69.8 %

2604

28.2 %

2

Fritz 8

2699

18

18

1088

62.1 %

2613

28.6 %

3

Ktulu 7.0

2693

49

48

150

67.3 %

2567

30.7 %

4

Junior 9

2682

16

16

1238

60.4 %

2609

29.9 %

5

Hiarcs 9

2653

17

17

1088

55.3 %

2616

33.1 %

6

Gandalf 6.0

2648

17

17

1088

54.6 %

2616

31.4 %

7

Chess Tiger 15.0

2643

16

16

1088

53.8 %

2617

36.9 %

8

CM 10000 Steadfast

2639

24

24

510

52.5 %

2622

34.7 %

9

Ruffian 2.1.0

2629

17

17

1088

51.7 %

2618

32.9 %

10

List 512

2618

17

17

1088

50.0 %

2618

33.2 %

11

Pro Deo 1.1

2617

17

17

1088

49.8 %

2618

29.7 %

12

Spike 0.9

2616

47

47

150

56.0 %

2574

29.3 %

13

CMX Yoda

2607

23

23

578

49.0 %

2614

33.4 %

14

Fruit 2.0

2589

17

17

1088

45.5 %

2620

29.0 %

15

SOS 5 for Arena

2586

17

17

1088

45.1 %

2620

34.4 %

16

Deep Sjeng 1.6

2580

26

26

510

43.4 %

2626

28.4 %

17

Aristarch 4.50

2577

17

17

1088

43.7 %

2621

31.2 %

18

SlowChess Blitz WV

2572

20

20

728

45.0 %

2607

36.7 %

19

Ktulu 5.1

2562

26

26

510

40.8 %

2627

28.6 %

20

Thinker 4.7a

2556

23

23

578

41.3 %

2617

34.9 %

21

DanChess CCT7

2552

45

46

150

46.3 %

2577

34.0 %

22

Zappa 1.0

2549

47

47

150

46.3 %

2574

30.0 %

23

Anaconda 2.0.1

2549

21

21

728

41.4 %

2609

33.7 %

24

Delfi 4.5

2540

21

21

728

40.1 %

2610

31.9 %

25

Pharaon 3.2

2536

21

21

728

39.6 %

2610

35.2 %

26

AnMon5.50

2535

45

46

150

43.3 %

2581

34.7 %

27

Naum 1.7

2522

53

53

104

42.3 %

2576

38.5 %

28

Patriot 1.3.0

2503

27

27

510

32.4 %

2631

25.5 %

29

Yace 0.99.87

2465

49

50

149

33.6 %

2584

26.8 %

30

Amyan 1.595

2447

56

57

114

31.6 %

2581

28.1 %

 

 

 

Was hinderte uns diese Ergebnisse bereits in allen Foren bekannt zu geben, nur ein paar Tage nachdem Ktulu erschienen war? Hauptsächlich das in vielen Jahren des Testens gesammelte Wissen und das wir uns bewusst waren, daß wir schon ähnliche Fälle zuvor hatten, wenn auch nicht so extrem ausgeprägt.

 

Also was haben wir hier?

Eine neue Sensation, eine Engine mit einer Performance auf dem Level der besten von ChessBase, mehr als 130 Punkte besser als Ktulu 5.1 und die neue Nummer 3 in unserer Ratingliste?

 

Nein, dachten wir, am wahrscheinlichsten ist es, daß diese Engine zwar sehr gut und stark verbessert ist, aber zufällig mit sehr guten Ergebnissen startete, so etwa als wenn man zehnmal eine Münze wirft und in sieben Fällen landet sie mit der Rückseite nach oben auf dem Boden. Also beschlossen wir, vorsichtig zu sein und die Ergebnisse nicht zu veröffentlichen, weil wir wollen, daß die Leute auf unsere Ratingliste vertrauen, was nicht der Fall wäre, wenn sie dann sähen, daß Ktulu hinterher wie ein Stein fällt. Was war noch möglich nach 150 Partien? Seht selbst...

 

Andererseits dachten wir bei einem Blick auf die error bars: selbst wenn Ktulu noch um das Maximum fällt, so würde ja immer noch eine ELO von 2645 verbleiben (2693-48), was 83 Punkte besser wäre als Ktulu 5.1 und eine sehr bemerkenswerte Verbesserung auf diesem hohen Niveau, wo üblicherweise ein einziger Ratingpunkt viel Arbeit, Tests und das Entfernen von Bugs und Hinzufügen nützlicher neuer Verbesserungen bedeutet.

 

Nun kam das nächste doppelrundige Turnier und Ktulu erzielte nur 11 aus 26 gegen Shredder, Junior und einige der besten Amateure (Ktulu wird in CEGT 4 auch gegen Fritz, Hiarcs und Gandalf spielen). Was würde passieren, wenn wir nur diese 26 Partien von Ktulu zur Ratingliste hinzufügen? Nicht viel, da wir zuvor bereits 150 Partien hatten? Seht selbst:

 

 

 

Program

Elo

+

-

Games

Score

Av.Op.

Draws

1

Shredder 9

2750

17

17

1239

69.9 %

2604

28.2 %

2

Fritz 8

2699

18

18

1088

62.1 %

2613

28.6 %

3

Junior 9

2683

16

16

1240

60.5 %

2609

29.8 %

4

Ktulu 7.0

2664

46

45

176

63.6 %

2567

26.1 %

5

Hiarcs 9

2653

17

17

1088

55.3 %

2616

33.1 %

6

Gandalf 6.0

2649

17

17

1088

54.6 %

2617

31.4 %

7

Chess Tiger 15.0

2643

16

16

1088

53.8 %

2617

36.9 %

8

CM 10000 Steadfast

2639

24

24

510

52.5 %

2622

34.7 %

9

Ruffian 2.1.0

2629

17

17

1088

51.7 %

2618

32.9 %

10

List 512

2619

17

17

1088

50.0 %

2618

33.2 %

11

Pro Deo 1.1

2617

17

17

1088

49.8 %

2619

29.7 %

12

Spike 0.9

2614

47

47

152

55.9 %

2573

28.9 %

13

CMX Yoda

2608

23

23

578

49.0 %

2614

33.4 %

14

Fruit 2.0

2589

17

17

1088

45.5 %

2620

29.0 %

15

SOS 5 for Arena

2586

17

17

1088

45.1 %

2620

34.4 %

16

Deep Sjeng 1.6

2580

26

26

510

43.4 %

2626

28.4 %

17

Aristarch 4.50

2577

17

17

1088

43.7 %

2621

31.2 %

18

SlowChess Blitz WV

2572

20

20

730

45.0 %

2607

36.6 %

19

Ktulu 5.1

2563

26

26

510

40.8 %

2628

28.6 %

20

Thinker 4.7a

2557

23

23

578

41.3 %

2617

34.9 %

21

Anaconda 2.0.1

2549

21

21

730

41.4 %

2609

33.6 %

22

Zappa 1.0

2548

47

47

152

46.4 %

2573

29.6 %

23

DanChess CCT7

2547

45

45

152

45.7 %

2576

33.6 %

24

Delfi 4.5

2539

21

21

730

40.0 %

2610

31.8 %

25

Pharaon 3.2

2537

20

21

730

39.7 %

2610

35.1 %

26

AnMon5.50

2534

45

45

152

43.4 %

2580

34.2 %

27

Naum 1.7

2528

53

53

106

43.4 %

2575

37.7 %

28

Patriot 1.3.0

2503

27

27

510

32.4 %

2632

25.5 %

29

Yace 0.99.87

2466

49

50

151

33.8 %

2583

26.5 %

30

Amyan 1.595

2449

56

57

116

31.9 %

2580

27.6 %

 

 

 

Ktulu verlor allein durch diese 26 Partien 29 Ratingpunkte und fiel auf Platz 4 zurück in unserer Liste. Aber achtet auch auf die error bars. In der Liste zuvor sah es nach einem "garantierten" Rating von 2645 aus, nun haben wir 2664, aber immer plötzlich einen möglichen Minuswert von immer noch 45 Punkten, der im schlechtesten Falle subtrahiert werden müsste.

 

Im schlechtesten Falle? Nein, darauf können wir nicht vertrauen, denn es wurde zuvor andere angegeben von ELOStat in der Liste die wir mit 150 Partien hatten. Da sah es nach einem Minimum von 2645 aus, während es jetzt 2619 sein sollen.

 

Also ist Ktulu eine dieser 5% Engines, die sich jeder statistischen Wahrscheinlichkeit entziehen? Was sind die Gründe? Ist Ktulu so unausgewogen, daß es einerseits mit taktischen Schlägen gegen die besten wie Shredder gewinnen kann, andererseits gegen relativ schwächere Engines wegen einiger Endspielschwierigkeiten verlieren kann? Diese individuellen Statistiken geben wir gegen Ende des Berichts und auch ein Blick in die Partien sollte hier hilfreich sein. Bisher gibt es gute Ergebnisse von Ktulu gegen Shredder und Junior, aber auch Probleme gegen gewisse starke Amateure.

 

Fahren wir fort. Das nächste double round robin. Wir waren längst neugierig und hatten begonnen, die Ktulu Partien für die Turniere via gauntlets vorwegzuspielen. Ktulu erzielte diesmal 14 aus 26. Nicht schlecht, aber nicht gut genug um das Rating auf diesem immer noch sehr hohen Niveau zu halten. 8 Elopunkte gingen verloren und Ktulu fiel auf Rang 5 zurück.

 

 

 

Program

Elo

+

-

Games

Score

Av.Op.

Draws

1

Shredder 9

2750

17

17

1241

69.9 %

2603

28.1 %

2

Fritz 8

2698

18

18

1088

62.1 %

2613

28.6 %

3

Junior 9

2682

16

16

1242

60.5 %

2608

29.8 %

4

Hiarcs 9

2653

17

17

1088

55.3 %

2615

33.1 %

5

Ktulu 7.0

2652

43

42

202

62.4 %

2565

24.8 %

6

Gandalf 6.0

2648

17

17

1088

54.6 %

2616

31.4 %

7

Chess Tiger 15.0

2642

16

16

1088

53.8 %

2616

36.9 %

8

CM 10000 Steadfast

2639

24

24

510

52.5 %

2622

34.7 %

9

Ruffian 2.1.0

2628

17

17

1088

51.7 %

2617

32.9 %

10

List 512

2618

17

17

1088

50.0 %

2618

33.2 %

11

Pro Deo 1.1

2616

17

17

1088

49.8 %

2618

29.7 %

12

Spike 0.9

2608

47

47

154

55.2 %

2572

28.6 %

13

CMX Yoda

2607

23

23

578

49.0 %

2613

33.4 %

14

Fruit 2.0

2588

17

17

1088

45.5 %

2619

29.0 %

15

SOS 5 for Arena

2586

17

17

1088

45.1 %

2620

34.4 %

16

Deep Sjeng 1.6

2580

26

26

510

43.4 %

2626

28.4 %

17

Aristarch 4.50

2576

17

17

1088

43.7 %

2620

31.2 %

18

SlowChess Blitz WV

2570

20

20

732

44.9 %

2606

36.5 %

19

Ktulu 5.1

2562

26

26

510

40.8 %

2627

28.6 %

20

Thinker 4.7a

2556

23

23

578

41.3 %

2616

34.9 %

21

Anaconda 2.0.1

2548

21

21

732

41.5 %

2608

33.5 %

22

Zappa 1.0

2547

46

47

154

46.4 %

2572

29.2 %

23

DanChess CCT7

2546

45

45

154

45.8 %

2575

33.1 %

24

Delfi 4.5

2538

21

21

732

40.0 %

2609

31.8 %

25

Pharaon 3.2

2537

20

21

732

39.8 %

2608

35.1 %

26

Naum 1.7

2532

52

52

108

44.0 %

2574

38.0 %

27

AnMon5.50

2529

45

45

154

42.9 %

2579

33.8 %

28

Patriot 1.3.0

2503

27

27

510

32.4 %

2631

25.5 %

29

Yace 0.99.87

2461

49

50

153

33.3 %

2581

26.1 %

30

Amyan 1.595

2453

55

56

118

32.6 %

2579

28.0 %

 

 

  

In den nächsten 26 Partien erzielte Ktulu 13,5 Punkte aus 26 Partien und wieder gingen 8 Elopunkte verloren. Ktulu fiel auf Rang 6, aber nahe an Gandalf. Bisher haben wir die folgende Ratingentwicklung:

 

 

Anzahl

Partien

 

Rating

 

Veränderung

 

+

 

-

150

2693

+15

49

48

176

2664

-29

46

45

202

2652

- 8

43

42

228

2644

- 8

40

40

 

 

Zwischen Partie 150 und 254 gingen 52 Ratingpunkte verloren, fast unglaublich wieder. Würde es weiter runtergehen? Nein, Ktulu hatte nun wieder gute Ergebnisse mit 15, dann 15.5, 16 und und 16.5 Punkten aus jeweils 26 Partien. Dazu kamen neue sehr gute Ergebnisse von Charles und Christian.

 

 

Anzahl

Partien

 

Rating

 

Veränderung

 

+

 

-

96

2678

00

58

57

150

2693

+15

49

48

176

2664

-29

46

45

202

2652

- 8

43

42

228

2644

- 8

40

40

254

2641

- 3

38

38

280

2642

+ 1

36

26

306

2643

+ 1

34

34

319

2647

+ 3

34

33

 

 

 

Program

Elo

+

-

Games

Score

Av.Op.

Draws

1

Shredder 9

2750

17

17

1263

70.0 %

2602

28.2 %

2

Fritz 8

2698

18

18

1088

62.1 %

2612

28.6 %

3

Junior 9

2682

16

16

1263

60.7 %

2607

29.9 %

4

Hiarcs 9

2652

17

17

1088

55.3 %

2615

33.1 %

5

Gandalf 6.0

2647

17

17

1088

54.6 %

2615

31.4 %

6

Ktulu 7.0

2647

34

33

319

61.8 %

2564

26.3 %

7

Chess Tiger 15.0

2642

16

16

1088

53.8 %

2616

36.9 %

8

CM 10000 Steadfast

2638

24

24

510

52.5 %

2621

34.7 %

9

Ruffian 2.1.0

2628

17

17

1088

51.7 %

2616

32.9 %

10

List 512

2617

17

17

1088

50.0 %

2617

33.2 %

11

Pro Deo 1.1

2616

17

17

1088

49.8 %

2617

29.7 %

12

Spike 0.9a

2607

44

43

175

54.9 %

2573

29.7 %

13

CMX Yoda

2606

23

23

578

49.0 %

2613

33.4 %

14

Fruit 2.0

2588

17

17

1088

45.5 %

2619

29.0 %

15

SOS 5 for Arena

2585

17

17

1088

45.1 %

2619

34.4 %

16

Deep Sjeng 1.6

2579

26

26

510

43.4 %

2625

28.4 %

17

Aristarch 4.50

2576

17

17

1088

43.7 %

2620

31.2 %

18

SlowChess Blitz WV

2570

20

20

753

45.0 %

2605

37.1 %

21

DanChess CCT7

2553

43

43

175

46.6 %

2577

30.3 %

22

Anaconda 2.0.1

2547

20

20

753

41.4 %

2607

33.6 %

24

Pharaon 3.2

2537

20

20

753

40.0 %

2608

34.5 %

25

Delfi 4.5

2535

21

21

753

39.6 %

2608

31.7 %

28

Patriot 1.3.0

2502

27

27

510

32.4 %

2630

25.5 %

29

Amyan 1.595

2483

49

50

142

36.3 %

2581

28.9 %

 

 

Also was werden wir nach 1000 Partien haben? Nichts ist so sicher wie die Unsicherheit .

 

Im Augenblick können wir nur folgendes sagen. Ktulu ist eine sehr gute Engine mit besonders taktischen Stärken und es macht Spaß sich die Partien gegen die besten anzusehen. Die Elosteigerung gegenüber Ktulu 5.1 in der CEGT Ratingliste beträgt derzeit 85 ELO, was eine mehr als erwartete Verbesserung darstellt, es ist für mich jedenfalls immer noch sensationell. Ob das nun nach viel mehr Partien Rang 3, 4 oder 7 sein wird, wer weiß das jetzt schon genau und ist es letztendlich so wichtig? Was wird die nächste Ktulu Version bringen?