3年ぶりのレート計測
2018年の9月に将棋ソフトのレート計測を中断してから3年が経ちました。長期間計測の現場から外れたため将棋ソフトの発展がよくわからなくなってきたということもあり、ここ数ヶ月久しぶりに計測を再開してみました。やめた当時最強だったdolphin1/illqha1.1のレーティングが約R4300だったのに対し、最近計測した最も強いソフトであるdlshogi-dr2_exhiが約R4700。三年間でレートが400伸びたということで将棋ソフトは順調に発展していることを確認しました。この三年間で何が変わったのか、自分なりに気が付いたことをまとめておきます。私は棋力も低くソフト開発者でもなんでもないのであくまでも素人の漫談であることをあらかじめお断りします。
(1) やねうら王の発展
3年前の最強ソフトだったdolphin1/illqha1.1はやねうら王4.82の派生バージョンdolphin1とNNUE型評価関数illqha1.1の組み合わせでした。現在のCPU型最強ソフトもやねうら王とNNUEの組み合わせですので基本的な構造は同じでレートを約270伸ばしたことになります。ちなみにQhapaqさんのサイトにおけるレート向上はR500弱ですので私の計測結果とはだいぶ乖離しています。その原因ですが、レートが遠いソフトとの対局を多めに入れたことと、互角局面集を用いた計測に切り替えたことにあると思います。将棋ソフトのレート測定には3すくみ現象などがあってレート近傍のソフトとの対局のみを続けていくとレートが遠いソフトとの比較がだんだん歪んで来ることを経験的に知っていたのであえてこのような計測を行うことにしました。互角局面集の導入は初形からの計測の場合、どうしても同じ戦型の対局が増えてしまい実際の使用目的(さまざまな局面におけるより正確な棋勢判定)に合致しているか疑問になったからということを挙げておきます。のちに述べる深層学習系のレート測定には結果的にこの手法でしかうまく測れないことが理解できたので個人的にはこの方針は間違い無かったのではないかと考えております。
やねうら王の発展に戻りますが、基本的に探索部(やねうら王本体でその元には基礎となるStockfishの探索部の発展に対応している)と評価関数(NNUE型)の進歩の合計にあると考えられます。今回の測定ではNNUE型の計測を別に行い双方の発展を独立に追ってみることにしました。まず評価関数の測定ですが、探索部を共通にして計測を行ってみました。一言で結果をまとめると3年前に計測を中断した時に最も強かったものの一つであるKristallweizenと最新の評価関数水匠4との差は約70であり評価関数の進歩のスピードはかなり落ちていることがわかりました。ファイルサイズが小さな評価関数ですので表現力の限界に到達するのが思ったより速かったのだと思います。評価関数部は他にも種類があってその代表はKPPT型ですがその代表格のAperyの評価関数と最新NNUEと比較するとR240程度の差がありKPPTに対するNNUEの優位は確立しています。今後新たな評価関数の形式が見つかるかどうかが今後の発展を左右していると思われます。
探索部についてはやねうら王4.82からStockfishの進展に対応するいわゆるmブランチの導入で大きくレートを上げさらにそれを洗練する形でやねうら王6が登場しました。NNUE評価関数の進展との差分をとると約R200の進歩ということになりやねうら王の進歩は主に探索の発展にあったことが理解できます。Stockfishの進歩を直ちに取り入れらることはやねうら王の大きな特徴であり、世界的な発展が容易に取り入れられるという意味で今後も期待できるのではないかと考えます。
(2) 深層学習系ソフトの発展
最近の進展という意味で驚かされたのは深層学習を取り入れたソフトの発展(主にdlshogi)です。こちらの進展は大会の成績だけを見ていてもなかなか容易に判断できないところがあり個人的には正直わかってなかったと思います。深層学習系のソフトで思い出されるのはAlphazeroで2017年12月の登場ですのですでにだいぶ前になります。その当時最強であったelmoを圧倒し、しかもそのアルゴリズムがシンプルであったということですぐにでも深層学習系のソフトがやねうら王に代表されるStockfish系のソフトを凌駕するのではないかと思われました。その印象はチェスでは比較的早く実現されましたが将棋の世界ではその進展がやや遅かった印象があり、最新の最高レベルのハードにおける比較を行う限りStockfish系ソフトに追いついたかどうかはそれほど自明には見えない印象です。
その原因として思うのは、CPUについてはAMDのZENの登場によりCPUのハイエンドのコスパが飛躍的に良くなった一方でGPUのハイエンドは市場の要求の差(通貨のマイニング)もあって値が下がらない状況にあることが大きいと思います。
ただ、個人的に関心があったのはコンシューマレベルの価格帯でレーティングがどうなっているかということで、計測してみると大きな進展があったのを実感することができました。現在深層学習系ソフトを先導しているのはdlshogiですが今年5月の大会であるWCSC31版の測定ですでにやねうら王を凌駕しており、さらにそのわずか数ヶ月後の電竜戦バージョンでレートを100伸ばしているのは驚異的と言わざるをえません。深層学習系評価関数の表現力はまだまだ進歩の余地があることが伺えます。
やねうら王はすでに十分すぎるくらい強いということ、深層学習系ソフトの導入はGPUを買う必要があってさらにソフトのインストールが格段に難しいことなどを考えると、深層学習系ソフトが一般に普及するのは現状では難しいと思います。一方で囲碁の世界のようにAWSやGoogle Colabでの使用法がマニュアル化されると普及の上でも革命が起こりそうな気もいたします。
ความคิดเห็น