旅の記録ー実験(将棋所編)
前回の記事では、将棋ウォーズの棋神(2016Ponanza)による解析の評価値から千田先生の解説を噛み砕いていった。
今回は将棋プログラムのやねうら王(Yaneuraou-2017early)を使った実験で、先の説明を補完していった結果を示す。(正直最初にこれに気づいてれば回り道しなくてよかったかも)
やねうら王には将棋所で使えるUSI拡張コマンドが多数用意されており、その中に'eval'というコマンドが存在する。このコマンドはその時点の局面に対しる評価関数での計算結果を表示するというものである。
▲7六歩△8四歩▲6八銀の局面に対し、このコマンドを使用し、その局面での評価値と指しての先の評価値を比較してみる。
実験結果
まずは▲6八銀まで進めた状態。この時点でやねうら王は、およそ700~800万局面を読み、3106という評価値をつけている。(赤枠参照) これまでの説明をもとにすると、この値は隣にある読み筋の△8八角成▲7九金△9九馬▲7七銀…という応酬の果てにある局面を示していることになる。
次に、この局面でevalコマンドを送った状態。-87という値が返されており(赤枠参照) 、この局面だけ見るのならば評価は-87ということがわかった。
最後に、先程の評価値3106の読み筋通りに進めた局面を示す。evalでの値は2796となっており、まあまあ近い値を示すことがわかった。
今回の実験では、やねうら王の拡張コマンドを用いることで、将棋プログラムが示す評価値が、その局面の評価値ではないということが明らかになった。
ただ、本実験でも、読み筋の先の局面の評価値が2796で、初期の3106と比較して400程度離れていることが気になった、
今後の予定としては、探索を制限させる、評価関数を変えてみるなどして、様々な局面(6八銀の局面/その他序盤/こまのぶつかりあった中盤/最終盤、盤上この一手や劇的逆転の局面など)でいろいろ試行錯誤したいところである。
以上
メモ:
値自体は静的評価値
読みと異なる手をさした場合、大幅に値が変動するが、序盤など選択肢が広い場合は、プログラムが探索してない局面に移行しても評価が大きく変動しない?