情報を与えられても勝率が上がらないゲーム証明

関数定義
stop(r,b) := 赤(アタリ) r 個、黒(ハズレ) b 個の状況の時、ストップをかけたときの勝率
thru(r,b) := 赤 r 個,黒 b 個の状況の時、スルーしたときの勝率
optimal(r,b) := 赤 r 個,黒 b 個の状況の時、（ストップかスルーかの）最適戦略をとった時の勝率

・ストップすれば直ちに勝率 r/(r+b) となる。
・スルーすれば r/(r+b) の確率で optimal(r-1,b)へ、b/(r+b) の確率で optimal(r,b-1) へ行くことになる。

これより
stop(r,b) = r/(r+b)    (1)
thru(r,b) = r/(r+b)*optimal(r-1,b) + b/(r+b)*optimal(r,b-1)    (2)
optimal(r,b) = max(stop(r,b), thru(r,b))     (3)
と書ける。

ここから帰納法で証明をはじめる。

optimal(r-1,b) = stop(r-1,b) = thru(r-1,b)
∧
optimal(r,b-1) = stop(r,b-1) = thru(r,b-1)
を仮定すると、
thru(r,b) - stop(r,b)
= r/(r+b)*optimal(r-1,b) + b/(r+b)*optimal(r,b-1) - r/(r+b)    ((1), (2)を代入)
= r/(r+b)*stop(r-1,b) + b/(r+b)*stop(r,b-1) - r/(r+b)    (仮定により optimal を stop に置換)
= r/(r+b)*(r-1)/(r-1+b) + b/(r+b)*r/(r+b-1) - r/(r+b)    ((1) を代入)
= (r(r-1) + br - r(r+b-1))/((r+b)(r+b-1))
= (rr-r+br-rr-br+r)/((r+b)(r+b-1))
= 0

よって、
optimal(r-1,b) = stop(r-1,b) = thru(r-1,b)
∧
optimal(r,b-1) = stop(r,b-1) = thru(r,b-1)
→
optimal(r,b) = stop(r,b) = thru(r,b). … [1] (帰納ステップ)

また、
stop(0,b)=thru(0,b)=optimal(0,b)=0
stop(r,0)=thru(r,0)=optimal(r,0)=1. … [2] (境界条件)

[1], [2] から二重帰納法により、
∀(r,b)(stop(r,b)=thru(r,b)=optimal(r,b)).

よって、赤の数と黒の数がどのときであれ、最適戦略はストップであり、スルーでもあり、勝率に差はない。
つまり、いついかなるときも、何を考えようとも、勝率は上がらない。