概要
ReversiGPTは、リバーシの盤面を入力トークンとして扱い、Transformerで次の手を選ぶリバーシAIです。
技術
ボード盤面を64トークンとして扱い、アテンション層x3、フィードフォワード層x3を2回自由に選択するMoE Transformerアーキテクチャを採用しています。
出力ではAlphaGo Zeroのように64トークンの次の手の確率分布と勝率を出力します。
学習では自己対戦でデータを生成し、強化学習でモデルを更新しています。
モデルアーキテクチャにはTensorflow, Kerasを使用し、WebアプリではTensorflow.jsを使用してブラウザ上で推論を行っています。