2017-10-29から1日間の記事一覧

AlphaGo と AlphaGo Zero の自己対戦による学習部分の違い

流し読みだとちゃんと分からなかったのでメモ。準備(AlphaGo) policy network : 盤面とその特徴量を入力として受け取り、各マスに打つ確率を返すニューラルネット。 value network: 盤面とその特徴量を入力として受け取り、その盤面での勝率を返すニューラ…