NNUE評価関数総当たり戦
- uuunuuun
- 2021年6月16日
- 読了時間: 2分
更新日:2021年6月19日
NNUE評価関数が最近どうなっているのか興味があり、調べることにしました。方針としては
評価関数本来の実力を見るため、探索エンジンを固定、評価関数だけを変化させて対局させ、過去の評価関数も現在のものと同じ基準で測る。
相性問題を回避するため、総当たりで同じ回数ずつ対局させる。
計測は二通り、初手から定跡なしの対局と互角局面集を用いてばらけさせた局面からの対局。前者では序盤で優位を確立し最後まで勝ち切ることができるか、後者では多様な局面に対応できるか、それぞれの能力を測れると考えました。
対局に用いた評価関数は
TNK-wcsc28 (2018年) : 始めて大会に用いられたNNUE評価関数。(TNK28)
Kristallweizen (2019年): WCSC29準優勝。(白ビール)
orqha1018 (2019年) : 白ビールと最強を争った評価関数 (orqha1018)
水匠3 (2020年):WCSOC2020優勝チームの評価関数の改良版
Burning Bridges (2020年) : 2020年第一回電龍戦5位 (BB-電龍)
illqha (2020年): 2020年第一回電龍戦6位 (illqha電龍)
Grampus4 (2020年): 電龍戦のあと発表されたもの
tanuki- (2021年): 2021年WCSC31版 (tanuki-31)
対局条件
総当たり戦、各組合せ100局ずつ
探索エンジン:Yaneuraou NNUE AVX2 tournament 6.02
持ち時間:レーティングサイト準拠。一手1500万ノード弱程度。
GUI:将棋所(総当たり戦機能があるため)
総当たり戦1は初手より定跡なし。
総当たり戦2はたややん互角局面集(36.sfen)をやねうら王を用いて定跡化(standard_book.db)し30手程度定跡に沿って進行させた後対局させる。
レーティングは水匠3をR4600に固定して計算
結果1:定跡なしの対局(棋譜)

初代NNUE評価関数(TNK28)から次年度(白ビール、orqha1018)にかけてR230-250程度の大幅な向上見て取れる。そのあとは伸び悩んでいて特に上位はほとんど差がない。
結果2:互角局面集を用いた対局 (棋譜)

上位グループで順番は多少入れ替わるがとびぬけて優位な評価関数はない。特に上位3評価関数(水匠、BB, illqha)はほとんど差がない。 僅差なので順位の変動は多少あるが統計誤差の範囲内。定跡なしと比較すると初代TNKと上位陣との差がR260 -> R140に減っている。一般に互角局面集を使うと、レーティング差は減ることが予想されるが今回の場合は半減に近いくらいの大きな違いを生んでいる。
感想:定跡なし、互角局面集の両方の測定で上位のNNUE評価関数の差別化は難しい。レート差20程度の差異について統計的に優劣をつけるためには各組み合わせに対して1000局程度の対局を組む必要があるが、調べる意味があるのかについては疑問に思う。NNUEについてはレーティングを競うよりは、振り飛車特化などの機能性についてアピールする時期になっているようだ。
最新記事
すべて表示2018年の9月に将棋ソフトのレート計測を中断してから3年が経ちました。長期間計測の現場から外れたため将棋ソフトの発展がよくわからなくなってきたということもあり、ここ数ヶ月久しぶりに計測を再開してみました。やめた当時最強だったdolphin1/illqha1.1のレーティン...
# 追記(2021/8/18) 新しいバージョンDL2_exhが発表されております。かなり強くなっておりますが、インストールの方法はこの記事と同じです。 昨年行われた第一回電竜戦でdlshogiのグループであるGCT将棋が優勝。チェスと同じく将棋ソフトも深層学習系(Deep...
追記: 2022/04/29 M1 MacでYaneuraouはコンパイル・動作できます。こちらのサイトに詳しく述べられています。 (YO7.1でも同じ方法で行けることが確認済みです。) またYO7.0にKristallweizenの評価関数を組み込んだバイナリーファイル...
Comments