スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

ロト6について調べてみた2(本数字等の出現確率)



ここからは、ロト6の当せん数字(本数字6個+ボーナス数字1個)の出方はランダムであるのか調べてみる。

当せん数字がランダムであるということを直接調べるのではなく、当せん数字がランダムであると仮定した場合に予想される各数字の出現確率と実際の当せん数字の出現確率が同じであることを示すことで、間接的に当せん数字がランダムであることを示す。

ここでいう「(出現)確率」とは、ロト6の当せん確率のことではなく、たとえば100回の抽選のうち、何回の抽選である現象が起きるのかを意味している。たとえば、(出現)確率が30%であるとは、100回の抽選のうちの30回である現象が起きるということである。

本記事では、いろいろな観点(たとえば本数字に含まれる偶数の個数など)で実際の本数字の出現確率と確率理論から予想される出現確率を比較している。出現確率が理論的に不明である場合には、ロト6のコンピュータ・シミュレーションの結果から求めた確率を理論確率とみなしている。実際に、出現確率が理論的に求められる場合で比較すると、理論確率とシミュレーションから求めた確率はほとんど同じであったため、両者と同一とみなしても問題ないと思われる。

本記事では、前提として、6つの本数字は小さい順に並んでいるとする。実際、ロト6では数字の並び順は当せんには関係しないためこの前提は問題ない。

本記事の流れはおよそ次にようになっている(当てはまらない場合もある)。
・当せん数字に関して、いろいろな観点から調べる。その際、当せん数字はランダムに出現すると仮定し、何らかの数字(確率変数)の確率分布(頻度)を調べる。
・実際の当せん数字の確率分布と確率論から理論的に予想される確率分布が同じであるか、統計的検定(適合度検定)(後述の「○結果の統計的検定」)により調べる。統計的検定に興味がない人はこの部分は読み飛ばして下さい。

なお、ロト6のコンピュータ・シミュレーションの手順であるが、まず、100万組の当せん数字(本数字6個+ボーナス数字1個)をランダムに生成する。その後、その当せん数字を色々な観点で集計し、結果をグラフ化する。
ちなみに、乱数生成にはメルセンヌ・ツイスター法を用いているため、生成された当せん数字は十分ランダムであると言える。


■本数字とボーナス数字の出現確率



ここでは、本数字とボーナス数字がどの程度の確率で出現しているのか調べる(下図)。最初の図は、第1回~第588回までの本数字を集計した棒グラフで、次の図はボーナス数字の棒グラフである。青い棒は実際の抽選で出現した各数字の出現確率、赤い棒は、理論上の出現確率である。このグラフから、たとえば、「1」が本数字に含まれる理論確率は14%、すなわち、100回のうちの14回で当せん数字に「1」が出現する。

実際の本数字の出現確率はほぼ理論通りであるが、ボーナス数字に関してはばらつきが大きく、その出現確率は理論通りではない。おそらく、588回分の抽選結果ではサンプル数が少なく、今後、より多くの抽選が実施されれば理論確率に近づくものと予想される。
ロト6 本数字出現確率

ロト6 ボーナス数字出現確率


ちなみに、本数字に1~43の各数字が出現する理論確率は6/43,ボーナス数字では1/43である。

○結果の統計的検定

カイ2乗分布を用いた適合度検定を実施した。帰無仮説$H_0$は「経験的分布は理論から予想される分布に一致している」である。
検定の結果、本数字の場合はp値=0.69であり、帰無仮説は棄却されない。一方、ボーナス数字の場合は、p値=0.01となり帰無仮説は棄却される。そのため、統計的にはボーナス数字の出現確率はランダムでない可能性も否定できない。しかし、上述したようにサンプル数が多くなれば実際の出現確率も理論確率に近づくものと予想される。

ちなみに、本数字は1~43の数字から非復元抽出されるため、通常の検定統計量に若干変更を加えた次の式が$\chi_{M-1}^{2}$に従うことを用いて検定する必要がある[Joe, 1993]。
$$ \begin{align}
T &= \frac{M-1}{M-m}\sum_{i=1}^{M}\frac{(F_i-E_i)^2}{E_i}
\end{align}$$
ここで、$M$は43、$m$は6、$F_i$は度数、$E_i$は期待度数である。


■本数字の各数字が枠ごとに出現する確率



6個の入れ物に本数字が書かれた紙(6枚)を小さい順に左から右に入れることを想像する。このとき、6個の入れ物を左から順に第1枠、第2枠...第6枠と呼ぶことにする。
すると、枠ごとに入りやすい数字が出てくる。たとえば、本数字に含まれる「1」は最も小さい数字であるため第1枠にしか入らない(小さい純に並べているため)。同様に「43」は第6枠にしか入らない。しかし、「15」は1枠から6枠までの全ての枠に入る可能性があり、各枠にどの程度入りやすいのかは確率的に決まっている。

ここでは、本数字として選ばれた1~43の数字が、1枠から6枠の各枠にどの程度の確率で入るのか調べる。

たとえ本数字がランダム選ばれていても、各本数字が各枠に入る確率にはある規則性がある。言うまでもないことであるが、この規則性を使ってもロト6の当せん確率を上げることはできない(本数字はランダムであるため)

本数字の各数字が1枠~6枠の各枠に入る確率のグラフを下図に示す。青い棒は、実際の抽選で選ばれた各本数字が各枠に入った確率、赤い棒は、その理論上の確率である。このグラフから、たとえば、ある本数字の第1枠が「5」となる理論確率は8.2%、すなわち、100回の抽選のうち、8.2回で「5」を第1枠に含むような本数字が出現する。

これらのグラフから、実際の確率(青棒)と理論確率(赤棒)はよく一致していることがわかる。
ロト6 第1枠の本数字出現確率

ロト6 第2枠の本数字出現確率

ロト6 第3枠の本数字出現確率

ロト6 第4枠の本数字出現確率

ロト6 第5枠の本数字出現確率

ロト6 第6枠の本数字出現確率


なお、本数字が枠ごとに出現する理論確率は次の式で計算できる[Centre for the Study of Gambling, 2010]。
$$ \begin{align}
P(k,x,m,M) &= \frac{{}_{x-1}C_{k-1}\cdot{}_{M-x}C_{m-k}}{{}_{M}C_{m}}
\end{align}$$
ここで、$k(=1,2,\ldots,m)$は枠の番号、$x(=k,k+1,\ldots,k+M-m)$は本数字の数字である。$C$は組合せを意味する記号である。

○結果の統計的検定

適合度検定を実施した結果、第4枠以外の帰無仮説は棄却されなかったが、第4枠ではp値=0.016となり帰無仮説は棄却される。
しかし、サンプル数が多くなれば実際の出現確率も理論確率に近づくものと予想される。


■本数字の各数字が最小値・最大値になる確率



6個の本数字が決まれば、その中で最も小さい数と最も大きい数が決まる。たとえば、本数字が「10, 11, 24, 26, 37, 38」であれば、最小値は10,最大値は38である。

実は、最小値の出現確率は、上述した、各数字が第1枠に出現する確率と同じである。なぜなら第1枠に出現する数字は、必ず本数字の最小値になるからである。同様に最大値の出現確率は第6枠の出現確率と同じである。


■本数字に含まれる偶数と奇数の個数の頻度



抽選により6個の本数字が決まれば、その本数字に含まれる偶数と奇数の個数が決まる。たとえば、本数字が「10, 11, 24, 26, 37, 38」であれば、偶数の個数は4個(=「10, 24, 26, 38」),奇数の個数は2個(=「11, 37」)である。

そこで、本数字内の偶数の個数がA個となる確率、偶数の個数がB個となる確率を求めた結果のグラフを下図に示す。
グラフの青い棒は、抽選で選ばれた各本数字に含まれる偶数の個数がAであった確率、赤い棒は、その理論上の確率である。このグラフから、たとえば、本数字に含まれる偶数の個数が4個となる確率は22.7%、すなわち、100回の抽選のうちの22.7回で本数字に含まれる偶数の個数が4個となる。

これらのグラフから、実際の確率(青棒)と理論確率(赤棒)はよく一致していることがわかる。また、本数字には偶数が3個含まれる可能性が最も高いことがわかる。奇数の場合も同様である。
ロト6 偶数本数字の出現確率

ロト6 奇数本数字の出現確率



なお、理論確率は次の式で計算できる[Centre for the Study of Gambling, 2010]。
$$ \begin{align}
P(r,e,m,M) &= \frac{{}_{r}C_{e}\cdot{}_{M-r}C_{m-e}}{{}_{M}C_{m}}
\end{align}$$
ここで、$r$は1~43に含まれる偶数または奇数の個数(それぞれ21個、22個)、$e(=0,1,\ldots,m)$は本数字に含まれる偶数または奇数の個数である。


○結果の統計的検定

適合度検定を実施した結果、偶数・奇数ともにp値<0.01となり、帰無仮説は棄却される。特に、偶数の個数が0個の場合(すなわち奇数の個数が6個)には実際の抽選結果と理論から予想される頻度の差が大きいためp値が小さくなった。
サンプル数が多くなれば実際の出現確率も理論確率に近づくものと予想される。


■直近のN回で選ばれた本数字のうち再出現する個数がM個である確率



前回、または、前回と前々回の当せん数字が再び当せん数字に現れる場合がある。

たとえば、次の本数字の例(架空)を考える。
 ・第100回:10, 11, 15, 26, 37, 38
 ・第101回:02, 10, 15, 28, 31, 42
 ・第102回:11, 15, 17, 21, 25, 42
この場合、第100回の本数字(11, 15)と第101回の本数字(15, 42)が第102回の本数字に再出現している。すなわち、直近の2回の本数字を合わせた数字の中から、計3個(11,15,42)の数字が第102回の本数字に再出現している。

そこで、上の例にあるような、直近N回分の本数字の中から、M個の数字が再度出現する確率を求める。ここで、Nとしては、直近の1回分から10回分までとする(下図)。グラフの横軸は、直近N回分の本数字の中で、再出現した数字の個数、縦軸はその確率である。
青い棒は、実際のロト6での再出現確率、赤い棒は(シミュレーションで求めた)理論上の再出現確率である。このグラフから、たとえば、直近2回分の抽選で選ばれた本数字のうちで、今回の抽選で再度選ばれた数字の個数が3個となる確率は13.9%となる。すなわち、100回抽選を行えば、直近2回で選ばれた本数字のうち、3個の数字が再出現する場合が約14回あることを意味する。

これらのグラフを見ると、実際の確率(青棒)と理論確率(赤棒)はよく一致していることがわかる。

当たり前のことだが、直近の回数Nが大きくなればなるほど、これらの本数字の中から再度出現する数字の個数が多くなっていく。
ロト6 1回前までの本数字のうち再出現した個数

ロト6 2回前までの本数字のうち再出現した個数

ロト6 3回前までの本数字のうち再出現した個数

ロト6 4回前までの本数字のうち再出現した個数

ロト6 5回前までの本数字のうち再出現した個数

ロト6 6回前までの本数字のうち再出現した個数

ロト6 7回前までの本数字のうち再出現した個数

ロト6 8回前までの本数字のうち再出現した個数

ロト6 9回前までの本数字のうち再出現した個数

ロト6 10回前までの本数字のうち再出現した個数



○結果の統計的検定

適合度検定を実施した結果、どの場合もp値>0.05となり、帰無仮説は棄却されない。


■ちょうどN回前の抽選で選ばれた本数字のうち再出現する個数がM個である確率



一つ前のタイトルと同じようにみえるが次のように微妙に異なっている。一つ前の内容は「N回前まで」の本数字を全て一緒にした数字の中から再出現する数字の個数を調べたが、ここでは「ちょうどN回前」の本数字(6個)のみを考え、その中から再出現する数字の個数を調べる。

たとえば、次の本数字の例(架空)を考える。
 ・第100回:10, 11, 15, 26, 37, 38
 ・第101回:02, 10, 15, 28, 31, 42
 ・第102回:11, 15, 17, 21, 25, 42
この場合、第100回の本数字のうち11と15が第102回の本数字に再出現している。すなわち、ちょうど2回前の本数字のうちの2個(11と15)が第102回に再出現している。

ここでは、上の例にあるような、ちょうどN回前の本数字(6個)の中から、M個の数字が再出現する確率を求める。ここで、Nとしては、1回前から4回前までとした(下図)。100前までとしても良いがどれも全て同じような結果なので4回前で打ち切った。
グラフの横軸は、ちょうどN回前の本数字の中で、再出現した数字の個数、縦軸は再出現した数字の個数がM個となる確率である。

青い棒は、実際のロト6での確率、赤い棒は理論上の確率である。このグラフから、たとえば、ちょうど2回前の抽選で選ばれた本数字のうちで、今回の抽選でも再度選ばれた数字の個数が2個となる理論確率は16.3%となる。すなわち、100回抽選を行えば、そのうちの約16回で、そのちょうど2回前で選ばれた本数字のうち、2個の数字が再度選ばれる。
ロト6 ちょうどN回前の本数字のうち再出現した個数


ここで注目すべきことは、ちょうど1回前の本数字が再出現する個数も、4回前の本数字が再出現する個数も、同様に(グラフにはないが)ちょうど100回前の本数字が再出現する個数も、すべて確率は同じである、ということである。
100回前の抽選のよる本数字が今回の本数字に影響を与えることは常識的にあり得ないが、100回前の本数字が再出現する確率は1回前の本数字が再出現する確率と同じである。すなわち、1回前(直前)の結果が今回の本数字に影響を与えることはあり得ない。すなわち、どの抽選結果もそれ以外の抽選結果とは全く無関係であり、本数字は毎回ランダムにしか決まらないということである。
この結果は考えてみれば当たり前のことである。もし、1回前(直前)の結果が今回の本数字に影響を与えるのであれば、抽選に用いれられる球(1~43までの数字が書いてある)、または、抽選用の機械(夢ロトくん)が1回前の結果を記憶していなければならないが、このようなことはあり得ない。もちろん、抽選球にわずかなバラツキがあり、それが抽選に影響を与える可能性はあるが、毎回の抽選でこの影響が現れることはないだろう。おそらく10万回位抽選した結果に対して、本記事のような集計をすれば抽選球のバラツキが見えてくるかもしれないが。

以上のことはわかっている人には明らかなことであるが、ロト6の予想ソフトや情報商材等で当せん数字を予想しようとする人は、何らかの方法でランダムな本数字が予想できると勘違いしている可能性がある。

なお、この理論確率は次の式で計算できる。
$$ \begin{align}
P(k,m,M) &= \frac{{}_{m}C_{k}\cdot{}_{M-m}C_{m-k}}{{}_{M}C_{m}}
\end{align}$$


○結果の統計的検定

適合度検定を実施した結果、どの場合もp値>0.05となり、帰無仮説は棄却されない。


■本数字の合計値の出現確率



たとえば、次の本数字の例(架空)を考える。
 ・第100回:10, 11, 15, 26, 37, 38
 ・第101回:02, 10, 15, 28, 31, 42
第100回の本数字の合計は137,第101回の本数字の合計は128である。

この例のように本数字の合計値の出現頻度(出現確率)を調べる(下図)。グラフの横軸は本数字の合計値、縦軸はその出現確率である。
青い棒は、実際のロト6での確率、赤い棒はシミュレーション結果による確率、緑の点は統計学から予想される正規分布$N(\mu, \sigma^2)$である。たとえば、本数字の合計が131となる確率は1.38%である。すなわち、抽選を100回を行えば、そのうちの約1.4回で本数字の合計値が131となる。

下のグラフから、実際のロト6の結果とシミュレーション結果がよく一致していることがわかる。
また、シミュレーション結果と正規分布を表す緑の点がほとんど一致していることがわかる。これはまさしく中心極限定理で予想される通りの結果である(中心極限定理は本数字の平均に対するものだが合計値に対しても成り立つ)。
ロト6 本数字合計の出現確率



○結果の統計的検定

本数字の合計値の平均$\mu$および分散$\sigma^2$はそれぞれ次の式で求められる($M$は43,$m$は6)[Centre for the Study of Gambling, 2010]。
$$ \begin{align}
\mu &= \frac{m(M+1)}{2}\\
\sigma^2 &= \frac{m(M+1)(M-m)}{12}\\
\end{align}$$

このとき、理論的に次の関係が成り立つ。
$$ \begin{align}
\frac{U-\mu}{\sigma/\sqrt{D}} &\sim N(0,1)\\
\frac{(D-1)V}{\sigma^2} &\sim \chi^2(D-1)\\
\end{align}$$
ここで、$U, V, D$はそれぞれ標本平均、標本分散、抽選回数である。

上の関係が成り立つかどうか実際の当せん数字に対して統計的検定を実施した結果、どちらの検定統計量もp値>0.05となり、上式が成立すことが確認できた。


■本数字内の数字同士の差の最小値・最大値がある数Nとなる確率



本数字の数字同士の差を求め、その最小値と最大値がどのような確率で出現するのか調べる。本数字は左から小さい順に並べられているという仮定のもとでは、最小値・最大値ともに2通りの計算方法が考えられるため、その点も考慮する。

例として、次の本数字(左から小さい順に並べられている)の列を考える。
 ・02, 10, 15, 28, 33, 42
これらの本数字同士の最小値を求めるには、隣り合う本数字同士の差を計算し、その中で最も小さい値が最小値、最も大きい値が最大値、となる。最小値・最大値の計算方法として次の2通り(周期条件なし/周期条件あり)の場合を考える。

◎周期条件なし:

通常の素直な方法。上の例で言えば、隣り合う数字の差は、左から8(=10-2),5(=15-10),13,5,9なので、最小値は5,最大値は13である。


◎周期条件あり:
この場合では、後述するように右端と左端の差を取ることになるが、それ以外は周期条件なしの場合と同様に差を計算し、最小値・最大値を求める。

さて、左端の本数字と右端の本数字がつながっているとみなして、両端の数字間の差を求めることを考える。たとえば、リストバンドの片面全体を6つの区画に区切る。各枠に上の例で挙げた6個の本数字が書かれている状態を考える。すると、右端の本数字(42)の右隣は左端の本数字(02)となり、右端と左端がつながっているとみなせるため、差を計算できる。右端と左端の差の計算方法であるが、単純に02-42と計算すると結果がマイナス(-40)となり都合が悪い。両端の場合だけは例外として、左端の数字に43を足してから右端の数字を引けば問題が解決する。上の例では、この差は3(=02+43-42)となる。また、左端の数字が01、右端が43の場合には、この差は1(=01+43-43)となるのでこの方法は自然である。
上の例で言えば、最小値は3,最大値は13となる。


周期条件のある/なしで差の最小値/最大値がある値になる確率を求めた結果を示す(下図)。グラフの横軸は上述の方法で求めた差の最小値・最大値、縦軸はその出現確率である。たとえば、、周期条件なしの場合、本数字同士の差の最小値が2となる確率は27.1%、すなわち、100回の抽選のうちの約27回で最小値が2となる本数字が選ばれる。

青い棒は、実際のロト6での確率、赤い棒はシミュレーション結果による確率、緑の棒は理論的に求まる確率である。このグラフから、実際のロト6の結果と理論確率およびシミュレーション結果がよく一致していることがわかる。ただ、一カ所気になるのは、周期条件ありの場合で差の最小値が2以上のとき、理論確率とシミュレーション結果が微妙に異なっている点である。この相違がどこから来たのか現時点では不明。

周期条件のあり/なしで分布の形が若干異なっている。周期条件ありの場合には右端と左端の差も合わせて考慮するため、最小値は更に小さく、最大値はさらに大きくなる可能性が高まるからである。

これらの結果で興味深いことは、最小値の差が1、すなわち、本数字の中に連続する数(例:13と14など)が現れる確率が約55%もあることである。すなわち、2回抽選すれば、そのうちのどちらかでは、本数字の中に連続する数字が現れるということである。本数字に連続する数字が出ると、稀な現象が起きたと感じる人もいると思うが、55%の確率で起きる現象なので特段珍しい事が起きたというわけでもない。
ロト6 本数字間の差の最小値出現確率(周期条件なし)

ロト6 本数字間の差の最小値出現確率(周期条件)

ロト6 本数字間の差の最大値出現確率(周期条件なし)

ロト6 本数字間の差の最大値出現確率(周期条件)


なお、この理論確率は次の式で計算できる[Konstantinos, 2007, 2009]。ただし、最大値・周期条件ありの理論確率は不明。

・最小値、周期条件なし
$$ \begin{align}
P(k,m,M) &= 1-\frac{{}_{M-k(m-1)}C_{m}}{{}_{M}C_{m}}
\end{align}$$
・最小値、周期条件あり
$$ \begin{align}
P(k,m,M) &= 1-\frac{{}_{M-k-k(m-1)}C_{m}+{}_{M-2k-1-k(m-2)}C_{m-1}}{{}_{M}C_{m}}
\end{align}$$
・最大値、周期条件なし
$$ \begin{align}
P(k,m,M) &= \frac{\sum_{l=1}^{m-1}(-1)^{l-1}{}_{m-1}C_{l}({}_{M-l(k-1)}C_{m}-{}_{M-lk}C_{m})}{{}_{M}C_{m}}
\end{align}$$

○結果の統計的検定

適合度検定を実施した結果、どの場合もp値>0.05となり、帰無仮説は棄却されない。
スポンサーサイト

テーマ : ロト6
ジャンル : ギャンブル

コメントの投稿

非公開コメント

プロフィール

hosohashi

Author:hosohashi
FC2ブログへようこそ!

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。