例えば、報酬として以下のように設定すると、 - 聴牌時の待ち枚数を設定 → 待ち枚数の期待値 - 良型聴牌を8枚以上の待ちと定義して、8枚以上なら1、それでないなら0 → 良型聴牌率
例えば、報酬として以下のように設定すると、