6 Zmienne losowe i ich rozkłady
Wróćmy na chwilę do paradoksu Bertranda. Wyposażeni w aparat zdobyty do tej pory jesteśmy w stanie dokładniej przeanalizować ten przykład. Zobaczymy też, w którym kierunku powinniśmy rozwijać naszą teorię.
Jeżeli losujemy cięciwę pierwszym sposobem, tj. przez wylosowanie jej końców to przestrzenią probabilistyczną, która to reprezentuje jest \(\Omega_1 = [0,1]^2\) z \(\sigma\)-ciałem zbiorów borelowskich i miarą Lebesgue’a.
Zdarzenie elementarne \(\omega = (\theta, \phi)\) utożsamiamy z cięciwą o końcach \((\cos(2\pi \theta), \sin(2\pi \theta))\) oraz \((\cos(2\pi \phi), \sin(2\pi \phi))\). Wówczas długość takiej cięciwy to \[\begin{equation*} X_1(\omega) = \sqrt{(\cos(2\pi \theta) -\cos(2\pi \phi))^2 + (\sin(2\pi \theta)-\sin(2\pi \phi))^2}. \end{equation*}\] Postać \(X_1(\omega)\) możemy oczywiście nieco uprościć. Wykorzystując niezmienniczość na obroty \[\begin{multline*} X_1(\omega) = X_1(\theta,\phi) = X_1(\theta-\phi,0) \\ = \sqrt{(1-\cos(2\pi (\theta -\phi))^2 + (\sin(2\pi (\theta - \phi)))^2} = 2 \sin \left( \pi|\theta-\phi| \right). \end{multline*}\] Zauważmy, że interesująca nas wielkość jest funkcją rzeczywistą zdarzenia elementarnego, tj. \(X_1 \colon \Omega \to \mathbb{R}\).
Załóżmy teraz, że losujemy cięciwę poprzez wylosowanie jej środka. Wówczas \(\Omega_2\) jest kołem jednostkowym z \(\sigma\)-ciałem zbiorów Borelowskich i miarą Lebesgue’a.
Jeżeli \(\omega =(x,y) \in \Omega_2\) jest środkiem cięciwy, to z twierdzenia Pitagorasa jej długość jest dana przez \[\begin{equation*} X_2(\omega) = 2 \sqrt{1-x^2-y^2}. \end{equation*}\] Wreszcie losując tylko odległość od środka koła wybieramy \(\Omega_3=[0,1]\) z \(\sigma\)-ciałem zbiorów Borelowskich i miarą Lebesgue’a. Wówczas dla \(\omega \in \Omega_3\) długość wylosowanej cięciwy to \[\begin{equation*} X_3(\omega) = 2\sqrt{1-\omega^2}. \end{equation*}\] We wszystkich trzech przykładach otrzymaliśmy różne przestrzenie probabilistyczne. Aby rzeczywiście stwierdzić, że powyższe trzy metody nie są równoważne musimy porównać funkcje \(X_i\colon \Omega_i \to \mathbb{R}\) dla \(i=1,2,3\) pod kątem probabilistycznym. Powyższe stanowi przykład sytuacji, w której bardziej od samych zdarzeń elementarnych interesują nas wartości funkcji zdarzeń elementarnych. Pamiętajmy, że struktura przestrzeni \(\Omega\) może być niemal dowolna. Elementami przestrzeni zdarzeń elementarnych mogą być liczby, wyniki rzutów monetą, ciągi, zbiory (kart), wykresy (kursy akcji) itd. Nas jednak zazwyczaj interesuje bardzo konkretna, często liczbowa, informacja.
Funkcje mierzalne
Pracując na ogólnej przestrzeni probabilistycznej \((\Omega, \mathcal{F}, \mathbb{P})\) będziemy chcieli analizować funkcje \(X \colon \Omega \to \mathbb{R}\) z punktu widzenia prawdopodobieństwa \(\mathbb{P}\). Oznacza to, że od funkcji \(X\) będziemy wymagali odpowiedniej regularności.
Definicja 6.1 Niech \((\Omega, \mathcal{F}, \mathbb{P})\) będzie przestrzenią probabilistyczną. Zmienna losowa jest to dowolna mierzalna funkcja \(X:(\Omega, \mathcal{F})\to (\mathbb{R}, \mathcal{B}or(\mathbb{R}))\).
Przypomnijmy, że \(X:(\Omega, \mathcal{F})\to (\mathbb{R}, \mathcal{B}or(\mathbb{R}))\) jest mierzalna gdy dla każdego \(A\in \mathcal{B}or(\mathbb{R})\), \[ X^{-1}(A)= \{ \omega \in \Omega \: : \: X(\omega) \in A \}\in \mathcal{F}. \]
Przykład 6.1 Jeżeli rzucamy pięć razy kostką, to \(\Omega = \{(i_1,\ldots, i_5), i_j \in \{1,2,\ldots, 6\}\}\), \(\omega = (\omega_1,\ldots, \omega_5)\). Jeśli chcemy obliczyć sumę wyników (nie interesują nas konkretne wyniki rzutów, ale suma oczek). Wówczas rozważamy \(X(\omega) = \omega_1+\ldots + \omega_5\). Wtedy \(X \colon \Omega \to \mathbb{R}\) jest zmienną losową.
Remark. Jeżeli \(\Omega\) jest przeliczalny i \(\mathcal{F} = 2^\Omega\), to każde odwzorowanie \(X:\Omega\mapsto \mathbb{R}\) jest zmienną losową (jeżeli \(\mathcal{F}\not = 2^\Omega\) to nie musi być już prawdą).
Remark. \(X\) jest zmienną losową jeżeli dla każdego \(t\in \mathbb{R}\), \(X^{-1}((-\infty,t])\in \mathcal{F}\).
Twierdzenie 6.1 Jeżeli \(X_1,X_2,\ldots\) są zmiennymi losowymi, to
- \(X_1+X_2\), \(X_1-X_2\), \(X_1\cdot X_2\), \(X_1/X_2\) (\(X_2\not=0\)) są zmiennymi losowymi.
- Jeżeli \(f:\mathbb{R}^n\mapsto \mathbb{R}\) jest mierzalne, to \(f(X_1,\ldots, X_n)\) jest zmienną losową.
- \(\inf_n X_n\), \(\sup_n X_n\), \(\limsup_n X_n\), \(\liminf_n X_n\) są zmiennymi losowymi.
Proof. Pozostawiamy jako zadanie.
Rozkłady zmiennych losowych
Chcąc porównać dwie zmienne losowe \(X_1 \colon \Omega_1 \to \mathbb{R}\) oraz \(X_2 \colon \Omega_2 \to \mathbb{R}\) zdefiniowane na dwóch różnych przestrzeniach probabilistycznych musimy znaleźć sposób na reprezentację ich na pewnej wspólnej przestrzeni. Tak się akurat składa, że obie funkcje mają takie same przeciwdziedziny. Jeżeli \(X\) jest zmienną losową, to można jej użyć do przetransportowania miary \(\mathbb{P}\) na \((\mathbb{R}, \mathcal{B}or(\mathbb{R}))\).
Definicja 6.2 Miarę \(\mu_X\) na \((\mathbb{R},\mathcal{B}or(\mathbb{R}))\) zdefiniowaną wzorem \[ \mu_X(B) = \mathbb{P}[X\in B] = \mathbb{P}\left[ \{\omega\in \Omega:\; X(\omega)\in B\} \right] = \mathbb{P}[X^{-1}(B)] \] dla każdego \(B\in \mathcal{B}or(\mathbb{R})\), nazywamy rozkładem zmiennej losowej \(X\).
W ten sposób zdefiniowaliśmy nową przestrzeń probabilistyczną \((\mathbb{R}, \mathcal{B}or(\mathbb{R}),\mu_X)\). To nie jest już abstrakcyjna przestrzeń \(\Omega\), ale przestrzeń o której sporo wiemy (dysponujemy narzędziami analitycznymi, na \(\mathbb{R}\) zachodzi twierdzenie Kołmogorowa).
Przykład 6.2 Wykonujemy \(n\) prób Bernoulliego z prawdopodobieństwem sukcesu \(p\) w pojedynczej próbie. Niech \(S_n\) będzie liczbą sukcesów. Wówczas \[\begin{equation*} \mathbb{P}[S_n=k]=p_k={n \choose k}p^k(1-p)^{n-k}. \end{equation*}\] Oznacza to, że \[\begin{equation*} \mathbb{P}[S_n\in B] = \sum_{k \in B} p_k = \sum_{k=0}^n p_k\delta_k(B). \end{equation*}\] Innymi słowy rozkład \(\mu_{S_n}\) jest równy \[\begin{equation*} \mu_{S_n}(\cdot) = \sum_{k=0}^n p_k\delta_k(\cdot). \end{equation*}\]
Powyższy przykład można bardzo łatwo uogólnić. Rzeczywiście, jeżeli zmienna losowa \(X\) jest taka, że istnieje przeliczalny zbiór \(\{x_k\}_{k \in \mathbb{N}}\) taki, że \[\begin{equation*} \sum_{k=1}^\infty\mathbb{P}[X-x_k] =1, \end{equation*}\] to jej rozkład zadany jest przez \[\begin{equation*} \mu_X(\cdot)=\sum_{k=1}^\infty p_k\delta_{x_k}(\cdot), \end{equation*}\] gdzie \[\begin{equation*} p_k = \mathbb{P}[X = x_k], \quad k \in \mathbb{N}. \end{equation*}\] Powyższe stosuje się do każdej zmiennej losowej określonej na zbiorze przeliczalnym. Aby móc w podobny sposób analizować zmienne losowe określone na większych przestrzeniach musimy wprowadzić dodatkowy aparat.
Definicja 6.3 Dystrybuantą zmiennej losowej \(X\) nazywamy funkcję \(F:\; \mathbb{R} \to [0,1]\) zadaną wzorem \[ F(t) = \mathbb{P}[X\le t] = \mu_X\left((-\infty,t]\right). \]
Przykład 6.3 Rzucamy monetą. \(\Omega = \{O,R\}\), \(X(O)=1\), \(X(R) = -1\). Wtedy \[ F(t) = \mathbb{P}[X\le t] = \left\{ \begin{array}{cc} 0 & \mbox{ dla } t < -1 \\ 1/2 & \mbox{ dla } -1\le t < 1 \\ 1 & \mbox{ dla } t \ge 1. \end{array} \right. \]
Przykład 6.4 Losowa liczba z przedziału \([0,1]\): \((\Omega, \mathcal{F}, \mathbb{P}) = ([0,1], \mathcal{B}or([0,1]), \lambda_1)\), \(X(\omega) = \omega\). \[ F(t) = \mathbb{P}[X\le t] = \left\{ \begin{array}{cc} 0 & \mbox{ dla } t < 0 \\ t & \mbox{ dla } 0\le t < 1 \\ 1 & \mbox{ dla } t \ge 1. \end{array} \right. \]
Przykład 6.5 Rozważmy pierwszy sposób losowania w paradoksie Bertranda. \[ F(t) = \mathbb{P}[X_1\le t] = \left\{ \begin{array}{cc} 0 & \mbox{ dla } t < 0 \\ \frac{2}{\pi} \arcsin(t/2) & \mbox{ dla } 0\le t < 2 \\ 1 & \mbox{ dla } t \ge 2. \end{array} \right. \]
Twierdzenie 6.2 (Własności dystrybuanty) Niech \(F\) będzie dystrybuantą pewnej zmiennej losowej \(X\). Wówczas
- \(F\) jest niemalejąca.
- \(\lim_{t\to -\infty} F(t) = 0\), \(\lim_{t\to \infty} F(t) = 1\).
- \(F\) jest prawostronnie ciągła.
- dla dowolnego \(t\in \mathbb{R}\) istnieje lewostronna granica \[F(t-) = \lim_{s\to t^-}F(s) = \mathbb{P}[X<t].\]
- \(F\) jest nieciągła w punkcie \(t_0\) wtedy i tylko wtedy, gdy \(\mathbb{P}[X = t_0] > 0\). Wówczas \(\mathbb{P}[X=t_0] = F(t_0) - F(t_0-)\). Punkt \(t_0\) nazywamy wówczas atomem rozkładu.
Proof. Punkt 1. Jeżeli \(t_1<t_2\), to zachodzi inkluzja \((-\infty,t_1] \subset (-\infty, t_2]\). Wówczas: \[ F(t_1) = \mu((-\infty,t_1]) \leq \mu((-\infty, t_2]) = F(t_2). \]
Punkt 2. Niech \(\{t_n\}\) będzie dowolnym ciągiem rosnącym do \(+\infty\). Wówczas rodzina zbiorów \((-\infty,t_n]\) jest rosnąca, a ponadto: \[ \mathbb{R} = \bigcup_n (-\infty,t_n]. \] Z twierdzenia o ciągłości otrzymujemy: \[ \lim_{n\to\infty} F(t_n) = \lim_{n\to\infty} \mu((-\infty,t_n]) = \mu(\mathbb{R}) = 1. \] Analogicznie dowodzimy drugiej części.
Punkt 3. Ustalmy \(t \in \mathbb{R}\) i niech \(\{t_n\}\) będzie ciągiem malejącym do \(t\). Wówczas ciąg przedziałów \((t,t_n]\) jest malejący i spełnia: \[ \bigcap_n (t,t_n] = \emptyset. \] Z twierdzenia o ciągłości otrzymujemy: \[\begin{multline*} \lim_{n\to\infty} \left( F(t_n) - F(t) \right) = \lim_{n\to\infty} \left( \mu((-\infty,t_n]) - \mu((-\infty, t]) \right)\\ = \lim_{n\to\infty} \mu((t,t_n]) = \mu(\emptyset) = 0. \end{multline*}\]
Punkt 4. Dowód przebiega analogicznie jak w punkcie 3.
Punkt 5. Jest konsekwencją punktu 4.
Twierdzenie 6.3 Jeżeli \(F\) jest funkcją na \(\mathbb{R}\) spełniającą warunki 1,2 i 3 z poprzedniego twierdzenia:
- \(F\) jest niemalejąca;
- \(\lim_{t\to -\infty} F(t) = 0\), \(\lim_{t\to \infty} F(t)\) = 1;
- \(F\) jest prawostronnie ciągła;
to \(F\) jest dystrybuantą pewnego rozkładu.
Proof. Naszym celem jest skonstruowanie przestrzeni probabilistycznej \((\Omega, \mathcal{F}, \mathbb{P})\) oraz zmiennej losowej \(X\) na niej określonej takiej, że \(F\) jest dystrybuantą \(X\), tzn. \[\begin{equation} F(t) = \mathbb{P}[X\le t] \tag{6.1} \end{equation}\] Zdefiniujmy \((\Omega, \mathcal{F}, \mathbb{P}) = \big( (0,1), \mathcal{B}or((0,1)), {\rm Leb} \big)\).
Załóżmy najpierw, że funkcja \(F\) jest odwracalna i zdefiniujmy \[ X(\omega) = F^{-1}(\omega). \] Musimy najpierw sprawdzić, że \(X\) jest mierzalna. Zauważmy, że dla dowolnego \(t\in \mathbb{R}\), \[ X^{-1}((-\infty, t]) = \{\omega:\; X(\omega) \le t \} = \{\omega:\; \omega \le F(t)\} = [0,F(t)] \in \mathcal{B}or(0,1). \] Dla sprawdzenia (6.1) piszemy \[ \mathbb{P}[X(\omega) \le t] = \mathbb{R}[ \omega \le F(t)] = F(t). \] Rozważmy teraz ogólny przypadek. Zdefiniujmy zmienną losową \(X\) jako uogólnioną funkcję odwrotną \(F\): \[\begin{equation} X(\omega) = F^{-1}(\omega):= \sup\{y\in \mathbb{R}:\; F(y)< \omega\}. \tag{6.2} \end{equation}\] Pokażemy, że \(F\) jest dystrybuantą \(X\), tzn. zachodzi (6.1). W tym celu wystarczy pokazać \[\begin{equation} \{ \omega:\; X(\omega) \le t \} =\{\omega:\; \omega \le F(t)\} \tag{6.3} \end{equation}\] dla każdego \(t\).
Oznaczmy przez \(L\) (\(P\)) zbiór po lewej (prawej) stronie formuły (6.3). Pokażemy najpierw, że \(L\supset P\). Istotnie, niech \(\omega\in P\), tzn. \(\omega \le F(t)\). Wtedy \[t\notin \{ y\in \mathbb{R}:\; F(y)< \omega\}.\] Skoro \(F\) jest monotoniczna, to \[ t \geq \sup\{ y \in \mathbb{R} \: : \: F(y)<\omega\} = F^{-1}(\omega)=X(\omega) \] zatem \(X(\omega) \le t\).
Do dowodu odwrotnej implikacji, niech \(\omega\notin P\), czyli \(\omega >F(t)\).
Korzystając z prawostronnej ciągłości dystrybuanty \(F\),
istnieje \(\varepsilon > 0\) tż. \(F(t+\varepsilon) < \omega\).
Zatem \[t+\varepsilon \in \{ y\in \mathbb{R}:\; F(y) < \omega \}.\]
Stąd
\[
t<t+\varepsilon \leq \sup\{ y \in \mathbb{R} \: : \: F(y)<\omega\} = F^{-1}(\omega) = X(\omega).
\]
Skoro
\(X(\omega)>t\), czyli \(\omega \notin L\).
Z równości (6.3) wynika, że \(X\) jest zmienną losową.
Aby pokazać, że \(X\) ma zadaną dystrybuantę
\[
\mathbb{P}[X\le t] = \mathbb{P}\left[ \{ \omega:\; X(\omega) \le t \}\right]
=\mathbb{P}\left[\{\omega:\; \omega \le F(t)\}\right] = F(t),
\]
gdzie ostatnia równość wynika z definicji miary probabilistycznej \(\mathbb{P}\),
która jest miarą Lebesgue’a na \([0,1]\).
Twierdzenie 6.4 (Twierdzenie o jednoznaczności) Dystrybuanta zmiennej losowej \(X\) wyznacza jednoznacznie jej rozkład.
Powyższy wynik jest konsekwencją lematu o \(\pi-\lambda\) układach zwanym też twierdzeniem Dynkina.
Definicja 6.4 Niepustą rodzinę \(\mathcal{K}\) podzbiorów \(\Omega\) nazywamy \(\pi\)-układem, jeżeli jest zamknięta na operację przekroju, tzn. \(A\cap B\in \mathcal{K}\) dla wszystkich \(A,B\in\mathcal{K}\).
Definicja 6.5 Niepustą rodzinę \(\mathcal{L}\) podzbiorów \(\Omega\) nazywamy \(\lambda\)-układem, jeżeli
- \(\Omega \in \mathcal{L}\).
- jeżeli \(A,B\in \mathcal{L}\) i \(A\subset B\), to \(B\setminus A\in \mathcal{L}\).
- jeżeli \(A_1,A_2,...\) jest wstępującym ciągiem elementów \(\mathcal{L}\), to \(\bigcup_{n=1}^\infty A_n \in \mathcal{L}\).
Lemma 6.1 (Dynkin) Jeżeli \(\mathcal{L}\) jest \(\lambda\)-układem zawierającym \(\pi\)-układ \(\mathcal{K}\), to \(\mathcal{L}\) zawiera także \(\sigma(\mathcal{K})\), \(\sigma\)-ciało generowane przez \(\mathcal{K}\).
Proof. Krok 1. Pokażemy najpierw, że jeżeli \(\mathcal{L}\) jest jednocześnie \(\pi\)-układem oraz \(\lambda\)-układem, to jest \(\sigma\)-ciałem. Istotnie \(\mathcal{L}\) jest zamknięte na operację sumy: jeżeli \(A,B\in \mathcal{L}\), to \[ A\cup B = A\cup \big( B\setminus A\cap B \big) = \big( A^c \setminus (B\setminus A\cap B) \big)^c \in \mathcal{L}. \] Przez indukcję pokazuje się, że \(\mathcal{L}\) jest zamknięte na skończone sumy, tzn. jeżeli \(A_1,\ldots, A_n\in \mathcal{L}\), to \(A_1\cup A_2\cup\ldots\cup A_n\in \mathcal{L}\). Załóżmy teraz, że \(\{A_n\}_{n\in\mathbb{N}}\) jest przeliczalnym ciągiem elementów \(\mathcal{L}\), wówczas \(\bigcup_{k=1}^n A_k\) jest ciągiem wstępującym elementów \(\mathcal{L}\), a stąd \[ \bigcup_{n=1}^\infty A_n = \bigcup_{n=1}^\infty \bigcup_{k=1}^n A_k \in \mathcal{L}, \] zatem \(\mathcal{L}\) jest \(\sigma\)-ciałem.
Krok 2. Niech \(\mathcal{L}_0\) będzie przekrojem wszystkich \(\lambda\)-układów zawierających \(\mathcal{K}\). Wystarczy pokazać, że \(\mathcal{L}_0\) jest \(\pi\)-układem, bo wówczas z kroku 1 jest \(\sigma\)-ciałem i \[ \mathcal{K} \subset \sigma(\mathcal{K}) \subset \mathcal{L}_0 \subset \mathcal{L}. \] Ustalmy \(A\in \mathcal{K}\) i rozważmy rodzinę \[\mathcal{K}_1^A = \{ B\subset \Omega:\; A\cap B\in \mathcal{L}_0 \}.\] Wówczas \(\mathcal{K}\subset \mathcal{K}_1^A\) (bo \(\mathcal{K}\) jest \(\pi\)-układem), ale ponadto \(\mathcal{K}_1^A\) jest \(\lambda\)-układem:
- \(\Omega \in \mathcal{K}_1^A\);
- jeżeli \(B_1,B_2\in \mathcal{K}_1^A\) oraz \(B_1\subset B_2\), to \[A\cap (B_2\setminus B_1) = (A\cap B_2) \setminus (A\cap B_1) \in \mathcal{L}_0;\]
- jeżeli \(B_n\) jest wstępującą rodziną elementów \(\mathcal{K}_1^A\), to \[ A\cap \bigg(\bigcup B_n \bigg) = \bigcup (A\cap B_n) \in \mathcal{L}_0 \] zatem \(\bigcup B_n \in \mathcal{K}_1^A\).
Pokazaliśmy, że \(\mathcal{K}_1^A\) jest \(\lambda\)-układem zawierającym \(\mathcal{K}\) Stąd wynika, że \(\mathcal{L}_0 \subseteq \mathcal{K}_1^A.\). Czyli jeżeli \(A\in \mathcal{K}, B\in \mathcal{L}_0\), to \(A\cap B \in \mathcal{L}_0\).
Następnie ustalmy dowolny zbiór \(B\in \mathcal{L}_0\) i zdefiniujmy \[\mathcal{K}_2^B = \{ A: A\cap B\in \mathcal{L}_0 \}.\] To samo rozumowanie co powyżej uzasadnia, że \(\mathcal{K}_2^B\) jest \(\lambda\)-układem oraz zawiera rodzinę \(\mathcal{K}\), a więc \(\mathcal{L}_0 \subseteq \mathcal{K}_2^B\). Podsumowując pokazaliśmy, że jeżeli \(A,B\in \mathcal{L}_0\), to \(A\cap B\in \mathcal{L}_0\), a więc \(\mathcal{L}_0\) jest \(\pi\)-układem, co kończy dowód.
Proof. Dowód twierdzenia o jednoznaczności (Twierdzenie 6.4) Chcemy pokazać, że jeżeli \(X\) i \(Y\) są dwoma zmiennymi losowymi o tej samej dystrybuancie \(F\), to muszą mieć te same rozkłady: \[\begin{equation} \mu_X(B) = \mu_Y(B), \tag{6.4} \end{equation}\] dla wszystkich \(B\in \mathcal{B}or(\mathbb{R})\). (Zauważmy, że \(X\) i \(Y\) mogą być określone na różnych przestrzeniach probabilistycznych. Pokazujemy równość rozkładów, a nie równość zmiennych losowych.)
Z definicji dystrybuanty wynika, że (6.4) zachodzi dla wszystkich zbiorów postaci \((-\infty,t]\). Oznaczmy te zbiory przez \(\mathcal{K}\). Tworzą one \(\pi\)-układ. Niech \[ \mathcal{L} = \big\{ A\in\mathcal{B}or(\mathbb{R}):\; \mu_X(A) = \mu_Y(A) \big\}. \] Rodzina \(\mathcal{L}\) jest \(\lambda\)-układem. Zatem z lematu o \(\pi-\lambda\) układach \[ \mathcal{L}\supset \sigma(\mathcal{K}) = \mathcal{B}or((\mathbb{R}). \] To pokazuje, że (6.4) zachodzi dla wszystkich zbiorów borelowskich, a więc obie miary \(\mu_X\) i \(\mu_Y\) są równe.