リゼロ観察
やねうら王作者磯崎さんが最近人の棋譜を使わず全く駒の損得だけから機械学習した評価関数を発表されています。通常、将棋を勉強し始めるときに駒の動かし方の次に習うのがいろいろな戦型とか囲い、定跡などだと思うのですがなんにも知らないAIが自己対局で自由に学習していったときにどのような将棋を指すのかという点でとても興味深いプロジェクトになっています。学習を1ステップ行ったものをepoch 1, 2ステップしたものをepoch2などと呼び、現時点(2017年6月16日)ではepoch 7までが開発されています。詳細については磯崎氏のHPを参照してください(以下、[やね]と参照する)。棋譜はこちらからダウンロードできます。人間の棋譜を使わずに自己学習したソフトがどのような対局をするのかは見る人が見れば面白いと思いますのでご参考にしてください。レーティングについては対局数が少ないのであくまでも目安程度に取っておいてください。対局は1手5秒4スレ i7-6700で行っています。リゼロ側の定跡はすべてoffです。
リゼロepoch0 (vs Bonanza 1.2 R2129)
勝敗 YaneuraOu-ReZero0 127 Bonanza Version 1.2 126 レート差 1 千日手 1 持将棋 3 平均手数 141 対局数 257
Ratingの目安はR2130
この対局だけ一手一秒4スレで対局を取った。
[やね]での目安はfloodgate換算でR1800。
リゼロepoch 1 (vs GPSfish R2889) 勝敗 YaneuraOu461t e1 60 GPSfish 44 レート差 53 千日手 0 持将棋 0 平均手数 150 対局数 104 Ratingの目安はR2940
[やね]ではBonanza6程度だったのでそれよりはかなり強いのかもしれない。
リゼロepoch 2 (vs Apery WCSC25 R3158) 勝敗 YaneuraOu461t e2 72 Apery_WCSC25 27 レート差 170 千日手 0 持将棋 0 平均手数 147 対局数 99 Ratingの目安はR3330
[やね]ではR3100程度なのでこれもかなり強めに出ている。比較すべきソフトを低く設定してしまったので勝敗の差が多く誤差は大きいと思われる。
リゼロepoch 3 (vs Gikou1 R3523) 勝敗 Gikou1 63 YaneuraOu461t e3 36 レート差 97 千日手 1 持将棋 0 平均手数 154 対局数 100 Ratingの目安はR3430
[やね]の測定はR3200程度なのでこれもかなり大きめ。
以上、どの測定結果もR200程度[やね]の測定結果からずれている。これは統計誤差というよりは、elmo型の学習を行うと長時間で棋力が伸びることを反映しているのかもしれない。
リゼロepoch 7 (vs Gikou2 R3792) 勝敗 Gikou 2 55 YaneuraOu-ReZero7 45 レート差 34 千日手 0 持将棋 0 平均手数 145 対局数 100 Ratingの目安はR3760 ツイッターでリゼロ7のほうがやや強いという結果が出ていたが、こちらは少し弱い程度(誤差範囲)。あちらでは技巧2の定跡を切っていたが、こちらは定跡onで計測。レーティング表では技巧2は定跡onにしていたので定跡を入れた分だけ技巧がやや強くなっているのかもしれない。
(追記6/18) リゼロepoch 7については詳しいレーティングも測ろうという事で他のソフトとの対局も行いました。
リゼロepoch 7 vs YO/Qhapaq (R3862)
勝敗 リゼロ7 40-5-77 Qhapaq (R-109)
WCSC27計測の際にお力になっていただいた方たちからもデータを戴いたのでそちらも掲載いたします。寄稿データについてはWCSC27データのそれぞれの方のフォルダに棋譜を置きます。
リゼロepoch 7 vs elmo (R3965) (K.toshiさんより寄稿データ)
勝敗 リゼロ7 47-8-145 elmo (R-186)
リゼロepoch7 vs elmo-qhapaq 1.0 (R3971) (透さんより寄稿データ)
勝敗 リゼロ7 53-4-143 (R-168)
これらのデータを統計処理してリゼロepoch 7のレートを出したところR3771, 真やね評価関数を用いたやねうら王と誤差の範囲で同じレートとなりました。これらの結果からリゼロ7の強さは浮かむ瀬評価関数と同じくらいという[やね]の予想と一致することになりました。