将棋ハンデ:初期盤面評価値と実際のレート落ちの関係
これまで3つの記事で将棋のハンデについて検証してきました。一つ目は標準的に行われてきた駒落ち(香落ち、角落ち、飛車落ち、二枚落ち)、2つ目は81Dojoの管理者が提案されている駒得によるハンデ(歩得、香得、角得など)、3つ目は電王戦の企画で行われたポナンザチャレンジに現れた「両成」「竜王」などのハンデです。これらのサイト、企画では初期盤面の評価値でハンデの大きさの目安にしています。実際、これは評価値と勝率の関係もある程度知られているのでもっともらしい評価だと思います。
一方、私のサイトでは実際にそのハンデでソフト同士を対局させたときに勝率が五分になるソフトのレート差がどの程度かという考え方で実際のハンデの大きさを評価してきました。いろいろ調べてみると、初期盤面の評価値と実際のレート落ちの関係が必ずしも簡単な比例関係にならないことが分かってきました。この結果については何度かツィートしていますが、コンピュータ将棋の専門家でもあまり知られていないと思われるので独立した記事にまとめることにいたしました。
私の調査では上手として主に浮かむ瀬(Apery sdt4 2016冬, R3674)を用いています。現時点で最も上位のソフトであり、定跡なしのレートが測られているソフトなので駒落ちなどの変則将棋のレートを測るのにはちょうどよいと思われます。実際にどのような勝敗であったのかは以前の各記事を参照してください。それらをまとめると以下のようになりました。(初期評価値は浮かむ瀬に約5億ノード読ませたときの評価値、対抗ソフトの項は浮かむ瀬にハンデを課したときにほぼ互角になるソフトを指します。)
初期評価値とレート落ちの比をみると2枚落ち、飛車落、角落などでは1.2~1.3でほぼ一定しているのが分かりますが、太閤、両成、変則太閤(竜王)などでは1.8~2.2でレート落ちが少ないことが分かります。また、香得2.68, 両端歩得4.44, 香落ち4.18などでは比例係数が倍以上変化しています。参考のため初期評価値とレート落ちを散布図でまとめると次のようになります。
以上の調査で私が理解したことは
ハンデの大きさを判断するのに初期評価値を使うのは誤差が大きい
実際のハンデを決めるためにはソフト同士を対局させるしかない
という2点だと思います。ポナンザチャレンジでは勝った場合の賞金が初期盤面の評価値で大体決められていたと推察しますが実際には評価力の判断の倍程度のずれがあったと考えられます。ソフト対局によるレート実測を重視していただければと考えます。