強豪ソフトの引分け率と評価関数

uuunuuun
2016年7月7日
読了時間: 5分

5月28日のブログで書いた、将棋ソフトのレーティングが高いほど引分け率が高いのではないか、という議論ですが、一応レーティングと引分け率の表など出しはしたのですが、何かすっきりしない感じがずっと残っていました。その時の考察として（１）強豪ソフトほど入玉がうまくなるため２５６手ルールで引き分けになってしまうのではないか、と書いたのですが、その時のデータでは同じ引き分けでも、千日手と２５６手による持将棋を区別しておらず、入玉が上手になったから引き分けるようになったとは言えないのではないか、と思えてきた（２）同一ソフトの対局ほど引分け率が高く見えるので、ある程度強豪であればレーティングと直接相関なく、引き分けは増えるのではないか、という２点が問題点として残ってしまいました。その後、floodgateにおける引分け率についてこちらのサイトでも詳しい解析が行われ始めました。

その後、データをもう少し丁寧に見て、同じ引き分けでも千日手と持将棋を別々にカウントし、一局あたりの平均手数をカウントすることにしました。

その結果、というか注意深く対局成績を見ていれば当たり前だったのですが、（１）については増えているのは持将棋だけでなく千日手も同じように増えている、（２）については、技巧やnozomiの登場で引分け率が高まっているのは同一ソフトというより同じ評価関数を用いているソフト同士の対局の特徴ではないかということがはっきりしてきました。

現在のところ引分け率が顕著に高くなっている（４％以上）ソフトは、４スレ/８スレ, AVX2/SSE4.2の区別を忘れると、AperyWCSC25より上の10個のソフトです。しかし、それらのソフトの多くはAperyの評価関数を用いているため、評価関数の種類としては実際には４種類に限定されています(Apery twig, WCSC26の評価関数の差はそれほど大きくないように見えるので一つとして扱っています）。

(1)Apery系(A) ： Apery twig/WCSC26, Silent Majority, god_whale std4a, Usapyon2, tanuki-WCSC26, YaneuraOu2016mid

(2) 技巧(G): Gikou

(3) nozomi(N): Nozomi

(4) やねうら王(Y): YaneuraOu classic-tce

私の調査では(一部例外がありますが)１００局単位で対局を行い、現時点でこれまでのべ133単位の対局が行われ、上記の１０ソフト同士の対局は次の76単位(7650局)です。大きな表ですので興味がおありであればスクロールしてご覧ください。この表は引分率でソートしてあり、最後の列に対局しているソフトが用いている評価関数が書かれています。

この表てすぐわかるのは、（A）ラフに言って同じ評価関数を用いているソフト同士の対局と、異なるものとが上下二つにはっきり分かれている、（B）千日手と持将棋の比率は対局によりばらつきはあるものの持将棋が強豪ソフトで多くなっているわけではなく、千日手も十分多い。

この目測をもう少し数値化すると、引分け数、千日手数、持将棋数を同じ評価関数を使っているものと異なるものとで各単位でカウントすると次のようになりました。

引分け率：同：　平均9.0%、標準偏差3.5%, 異：　平均 3.2% 標準偏差 1.7%

千日手率：同：　平均3.7%、標準偏差2.5%, 異：　平均 1.4% 標準偏差 1.0%

持将棋率：同：　平均4.4%、標準偏差 2 5%, 異：　平均 1.9% 標準偏差 1.5%

平均手数：同：　平均155、標準偏差 6.6%, 異：　平均 151 標準偏差 3.4%

引分け率が現れる度数について同一評価関数とことなるものとでヒストグラムを書くと次のようになります。横軸が引分率、縦軸がその範囲の引分け率が何単位現れたかを表しています。

このようにまとめてみると、（A）については同じ評価関数を用いるソフト対局の引分け率が異なるもののそれと比べて明らかに高く（３倍）、異なる評価関数のものについては有意に低いがfloodgate平均(1%位？)よりは高い、(B)については持将棋率の方が千日手率よりともに20-35%ほど高いが、統計数から言って有意の差とは認められないのではないか。最後にレートの高い技巧の引分け率が目を引くが、今のところ技巧の評価関数を使うソフトは技巧だけでレートが高いほど引分けが多いとは言えない。

将棋ソフトが将来どうなっていくのか、と考えると、今話題になっているのは評価関数の開発競争です。Ponanzaや技巧, NDFが強いのは評価関数のおかげであり、多くのソフトがApery評価関数を採用したのはその優秀さからでした。私の観察は同一評価関数を用いる強豪ソフトについては引分け率が、千日手、持将棋を問わず顕著に伸びていることを示しています。

精密な評価関数の作成は、単にパソコンのレベルでの将棋ソフトの優秀さを競うだけでなく、将来のスマホレベルでの将棋ソフトのレベル向上に大いに資することは、1/200に思考時間を落とした技巧の思いがけない強さを見ても明らかだと思います。

しかし、その一方で（ここから少し余計なことを書きますが）評価関数の画一化は引分け率を伸ばすというこのブログでの主張だけでなく、どちらのソフトが読み勝っているのかというリアルタイムでのソフト将棋観戦の面白さを阻害しているようにも思えます。現在のコンピュータ資源を投入した評価関数競争はどのような評価関数が出てくるのかというワクワク感があるのも事実ですが、一つの評価関数にかかるコストが個人ではもうどうしようもないレベルに達してしまい、共同作業にならざるを得ないという現状も表しています。この先に何が待っているのか、いちコンピュータ将棋ファンとして、面白くもあり心配でもあるというのが正直な感想です。

将棋フリーソフトレーティング

Rating of free shogi engines

強豪ソフトの引分け率と評価関数

コメント

特集記事

技巧新定跡（まふ定跡）

Apery新評価関数による棋力の向上

将棋ソフトのベンチマーク

レーティング表の更新について