top of page

NNUE評価関数総当たり戦

NNUE評価関数が最近どうなっているのか興味があり、調べることにしました。方針としては


  • 評価関数本来の実力を見るため、探索エンジンを固定、評価関数だけを変化させて対局させ、過去の評価関数も現在のものと同じ基準で測る。

  • 相性問題を回避するため、総当たりで同じ回数ずつ対局させる。

  • 計測は二通り、初手から定跡なしの対局と互角局面集を用いてばらけさせた局面からの対局。前者では序盤で優位を確立し最後まで勝ち切ることができるか、後者では多様な局面に対応できるか、それぞれの能力を測れると考えました。


対局に用いた評価関数は

  • TNK-wcsc28 (2018年) : 始めて大会に用いられたNNUE評価関数。(TNK28)

  • Kristallweizen (2019年): WCSC29準優勝。(白ビール)

  • orqha1018 (2019年) : 白ビールと最強を争った評価関数 (orqha1018)

  • 水匠3 (2020年):WCSOC2020優勝チームの評価関数の改良版

  • Burning Bridges (2020年) : 2020年第一回電龍戦5位 (BB-電龍)

  • illqha (2020年): 2020年第一回電龍戦6位 (illqha電龍)

  • Grampus4 (2020年): 電龍戦のあと発表されたもの

  • tanuki- (2021年): 2021年WCSC31版 (tanuki-31)

対局条件

  • 総当たり戦、各組合せ100局ずつ

  • 探索エンジン:Yaneuraou NNUE AVX2 tournament 6.02

  • 持ち時間:レーティングサイト準拠。一手1500万ノード弱程度。

  • GUI:将棋所(総当たり戦機能があるため)

  • 総当たり戦1は初手より定跡なし。

  • 総当たり戦2はたややん互角局面集(36.sfen)をやねうら王を用いて定跡化(standard_book.db)し30手程度定跡に沿って進行させた後対局させる。

  • レーティングは水匠3をR4600に固定して計算

結果1:定跡なしの対局(棋譜

初代NNUE評価関数(TNK28)から次年度(白ビール、orqha1018)にかけてR230-250程度の大幅な向上見て取れる。そのあとは伸び悩んでいて特に上位はほとんど差がない。


結果2:互角局面集を用いた対局 (棋譜)

上位グループで順番は多少入れ替わるがとびぬけて優位な評価関数はない。特に上位3評価関数(水匠、BB, illqha)はほとんど差がない。 僅差なので順位の変動は多少あるが統計誤差の範囲内。定跡なしと比較すると初代TNKと上位陣との差がR260 -> R140に減っている。一般に互角局面集を使うと、レーティング差は減ることが予想されるが今回の場合は半減に近いくらいの大きな違いを生んでいる。


感想:定跡なし、互角局面集の両方の測定で上位のNNUE評価関数の差別化は難しい。レート差20程度の差異について統計的に優劣をつけるためには各組み合わせに対して1000局程度の対局を組む必要があるが、調べる意味があるのかについては疑問に思う。NNUEについてはレーティングを競うよりは、振り飛車特化などの機能性についてアピールする時期になっているようだ。

特集記事
最新記事
アーカイブ
タグから検索
まだタグはありません。
ソーシャルメディア
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square
bottom of page