Konvergenz in Wahrscheinlichkeit

Graph einer Versuchsreihe mit stochastischer Konvergenz der relativen Häufigkeit gegen einen Grenzwert

Die Konvergenz in Wahrscheinlichkeit, auch stochastische Konvergenz genannt, ist ein Begriff aus der Wahrscheinlichkeitstheorie, einem Teilgebiet der Mathematik. Die Konvergenz in Wahrscheinlichkeit ist das wahrscheinlichkeitstheoretische Pendant zur Konvergenz nach Maß in der Maßtheorie und neben der Konvergenz im p-ten Mittel, der Konvergenz in Verteilung und der fast sicheren Konvergenz einer der Konvergenzbegriffe in der Stochastik. Es finden sich auch Quellen, welche die Konvergenz in Wahrscheinlichkeit analog zur Konvergenz lokal nach Maß der Maßtheorie definieren. Die Konvergenz in Wahrscheinlichkeit findet beispielsweise Anwendung bei der Formulierung des schwachen Gesetzes der großen Zahlen.

Definition

Für reellwertige Zufallsvariablen

Eine Folge ( X n ) n N {\displaystyle (X_{n})_{n\in \mathbb {N} }} von reellen Zufallsvariablen konvergiert in Wahrscheinlichkeit oder stochastisch gegen die Zufallsvariable X {\displaystyle X} , wenn für jedes ϵ > 0 {\displaystyle \epsilon >0} gilt, dass

lim n P ( | X n X | ϵ ) = 0 {\displaystyle \lim _{n\to \infty }P(|X_{n}-X|\geq \epsilon )=0}

ist. Man schreibt dann X n p X {\displaystyle X_{n}{\stackrel {p}{\rightarrow }}X} oder X n P X {\displaystyle X_{n}{\stackrel {P}{\rightarrow }}X} oder auch plim ( X n ) = X {\displaystyle \operatorname {plim} (X_{n})=X} .

Für Zufallsvektoren

Eine Folge ( X n ) n N {\displaystyle (\mathbf {X} _{n})_{n\in \mathbb {N} }} von Zufallsvektoren mit Werten in R m {\displaystyle \mathbb {R} ^{m}} konvergiert in Wahrscheinlichkeit oder stochastisch gegen den m {\displaystyle m} -dimensionalen Zufallsvektor X {\displaystyle \mathbf {X} } , wenn für jedes ϵ > 0 {\displaystyle \epsilon >0} gilt, dass

lim n P ( d ( X n , X ) ϵ ) = 0 {\displaystyle \lim _{n\to \infty }P(d(\mathbf {X} _{n},\mathbf {X} )\geq \epsilon )=0}

ist, wobei d {\displaystyle d} eine Metrik auf R m {\displaystyle \mathbb {R} ^{m}} ist. Man schreibt dann X n p X {\displaystyle \mathbf {X} _{n}{\stackrel {p}{\rightarrow }}\mathbf {X} } oder X n P X {\displaystyle \mathbf {X} _{n}{\stackrel {P}{\rightarrow }}\mathbf {X} } oder plim ( X n ) = X {\displaystyle \operatorname {plim} (\mathbf {X} _{n})=\mathbf {X} } .
Die verwendete Metrik d {\displaystyle d} kann beispielsweise die euklidische Metrik, die Manhattan-Metrik oder die Maximum-Metrik sein. Sie erzeugen dasselbe Konzept der Konvergenz in Wahrscheinlichkeit für Zufallsvektoren.

Allgemeiner Fall

Seien ( M , d ) {\displaystyle (M,d)} ein separabler metrischer Raum und B ( M ) {\displaystyle {\mathcal {B}}(M)} die zugehörige Borelsche σ-Algebra. Eine Folge ( X n ) n N {\displaystyle (X_{n})_{n\in \mathbb {N} }} von Zufallsvariablen auf einem Wahrscheinlichkeitsraum ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},P)} mit Werten in ( M , B ( M ) ) {\displaystyle (M,{\mathcal {B}}(M))} heißt konvergent in Wahrscheinlichkeit oder stochastisch konvergent gegen X {\displaystyle X} , wenn für alle ϵ > 0 {\displaystyle \epsilon >0} gilt, dass

lim n P ( d ( X n , X ) ϵ ) = 0 {\displaystyle \lim _{n\to \infty }P(d(X_{n},X)\geq \epsilon )=0}

ist. Dabei wird die vorausgesetzte Separabilität benötigt, um die in der Definition verwendete Messbarkeit der Abbildung Ω R , ω d ( X n ( ω ) , X ( ω ) ) {\displaystyle \Omega \rightarrow \mathbb {R} ,\,\omega \mapsto d(X_{n}(\omega ),X(\omega ))} , sicherzustellen.

Beispiel

Animation – Urnenmodell mit Zurücklegen und gleicher Wahrscheinlichkeit für rote bzw. blaue Kugel

Seien Y n {\displaystyle Y_{n}} unabhängige Rademacher-verteilte Zufallsvariablen, also P ( Y n = 1 ) = P ( Y n = 1 ) = 1 2 {\displaystyle P(Y_{n}=-1)=P(Y_{n}=1)={\tfrac {1}{2}}} . Dann ist E ( Y n ) = 0 {\displaystyle \operatorname {E} (Y_{n})=0} und Var ( Y n ) = 1 {\displaystyle \operatorname {Var} (Y_{n})=1} . Definiert man nun die Folge von Zufallsvariablen ( X n ) n N {\displaystyle (X_{n})_{n\in \mathbb {N} }} als

X n := 1 n i = 1 n Y i {\displaystyle X_{n}:={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}} ,

so ist aufgrund der Unabhängigkeit

E ( X n ) = 1 n n E ( Y n ) = 0 {\displaystyle \operatorname {E} (X_{n})={\frac {1}{n}}\cdot n\operatorname {E} (Y_{n})=0}

und

Var ( X n ) = 1 n 2 Var ( i = 1 n Y i ) = 1 n {\displaystyle \operatorname {Var} (X_{n})={\frac {1}{n^{2}}}\operatorname {Var} \left(\sum _{i=1}^{n}Y_{i}\right)={\frac {1}{n}}} .

Mit der Tschebyscheff-Ungleichung

P [ | X n E [ X n ] | ϵ ] Var [ X n ] ϵ 2 {\displaystyle P\left[|X_{n}-\operatorname {E} [X_{n}]|\geq \epsilon \right]\leq {\frac {\operatorname {Var} [X_{n}]}{\epsilon ^{2}}}}

erhält man dann die Abschätzung

P [ | X n | ϵ ] 1 n ϵ 2 n 0 {\displaystyle P\left[|X_{n}|\geq \epsilon \right]\leq {\frac {1}{n\epsilon ^{2}}}{\stackrel {n\to \infty }{\longrightarrow }}0} .

Also konvergieren die X n {\displaystyle X_{n}} in Wahrscheinlichkeit gegen 0. Neben der Tschebyscheff-Ungleichung ist die allgemeinere Markow-Ungleichung ein hilfreiches Mittel, um Konvergenz in Wahrscheinlichkeit zu zeigen.

Eigenschaften

  • Konvergiert ( X n ) n N {\displaystyle (X_{n})_{n\in N}} stochastisch gegen 0 und konvergiert ( Y n ) n N {\displaystyle (Y_{n})_{n\in N}} stochastisch gegen 0, so konvergiert auch ( X n + Y n ) n N {\displaystyle (X_{n}+Y_{n})_{n\in N}} stochastisch gegen 0.
  • Ist die reelle Zahlenfolge ( a n ) n N {\displaystyle (a_{n})_{n\in \mathbb {N} }} beschränkt und konvergiert ( X n ) n N {\displaystyle (X_{n})_{n\in N}} stochastisch gegen 0, so konvergiert auch ( a n X n ) n N {\displaystyle (a_{n}X_{n})_{n\in N}} stochastisch gegen 0.
  • Man kann zeigen, dass eine Folge X n {\displaystyle X_{n}\;} genau dann stochastisch gegen X {\displaystyle X} konvergiert, falls
lim n E [ m i n ( 1 , | X n X | ) ] = 0 , {\displaystyle \lim _{n\to \infty }\operatorname {E} [\mathrm {min} (1,|X_{n}-X|)]=0,}
das heißt die stochastische Konvergenz entspricht der Konvergenz bezüglich der Metrik d ( X , Y ) := E [ min ( 1 , | X Y | ) ] {\displaystyle d(X,Y):=\operatorname {E} [\min(1,|X-Y|)]} . Der Raum aller Zufallsvariablen versehen mit dieser Metrik bildet einen topologischen Vektorraum, der im Allgemeinen nicht lokalkonvex ist.
  • Eine Folge von Zufallsvektoren ( X n ) n N {\displaystyle (\mathbf {X} _{n})_{n\in \mathbb {N} }} mit Werten in R m {\displaystyle \mathbb {R} ^{m}} konvergiert stochastisch gegen den m {\displaystyle m} -dimensionalen Nullvektor 0 {\displaystyle \mathbf {0} } genau dann, wenn er komponentenweise stochastisch gegen Null konvergiert, wenn also
X j n p 0 für  j = 1 , , m {\displaystyle X_{jn}{\stackrel {p}{\rightarrow }}0\quad {\text{für }}j=1,\dots ,m}
gilt, wobei X j n {\displaystyle X_{jn}} die j {\displaystyle j} -te Komponente des Vektors X n = ( X 1 n , , X m n ) {\displaystyle \mathbf {X} _{n}=(X_{1n},\dots ,X_{mn})} bezeichnet.

Beziehung zu anderen Konvergenzarten der Stochastik

Allgemein gelten für die Konvergenzbegriffe der Wahrscheinlichkeitstheorie die Implikationen

Fast sichere Konvergenz Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung {\displaystyle {\begin{matrix}{\text{Fast sichere}}\\{\text{Konvergenz}}\end{matrix}}\implies {\begin{matrix}{\text{Konvergenz in}}\\{\text{Wahrscheinlichkeit}}\end{matrix}}\implies {\begin{matrix}{\text{Konvergenz in}}\\{\text{Verteilung}}\end{matrix}}}

und

Konvergenz im p-ten Mittel Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung {\displaystyle {\begin{matrix}{\text{Konvergenz im}}\\{\text{p-ten Mittel}}\end{matrix}}\implies {\begin{matrix}{\text{Konvergenz in}}\\{\text{Wahrscheinlichkeit}}\end{matrix}}\implies {\begin{matrix}{\text{Konvergenz in}}\\{\text{Verteilung}}\end{matrix}}} .

Die Konvergenz in Wahrscheinlichkeit ist also ein mäßig starker Konvergenzbegriff. In den unten stehenden Abschnitten sind die Beziehungen zu den anderen Konvergenzarten genauer ausgeführt.

Konvergenz im p-ten Mittel

Aus der Konvergenz im p-ten Mittel folgt für p 1 {\displaystyle p\geq 1} unmittelbar die Konvergenz in Wahrscheinlichkeit. Dazu wendet man die Markow-Ungleichung auf die Funktion h = Y p {\displaystyle h=Y^{p}} an, die für p > 0 {\displaystyle p>0} monoton wachsend ist, und die Zufallsvariable Y = | X n X | {\displaystyle Y=|X_{n}-X|} an. Dann folgt

P ( | X n X | ϵ ) 1 ϵ p E ( | X n X | p ) {\displaystyle P(|X_{n}-X|\geq \epsilon )\leq {\frac {1}{\epsilon ^{p}}}\operatorname {E} (|X_{n}-X|^{p})} ,

was im Grenzwert gegen Null geht. Die Umkehrung gilt im Allgemeinen nicht. Ein Beispiel hierfür ist: sind die Zufallsvariablen definiert durch

P ( X n = e n α ) = e n = 1 P ( X n = 0 ) {\displaystyle P(X_{n}=e^{n\alpha })=e^{-n}=1-P(X_{n}=0)}

mit α > 0 {\displaystyle \alpha >0} . Dann ist

E ( | X n | 1 ) = e n ( α 1 ) n 0 {\displaystyle \operatorname {E} (|X_{n}|^{1})=e^{n(\alpha -1)}{\xrightarrow[{}]{n\to \infty }}0} ,

wenn α < 1 {\displaystyle \alpha <1} . Also konvergiert die Folge für α ( 0 , 1 ) {\displaystyle \alpha \in (0,1)} im Mittel gegen 0. Für beliebiges ϵ ( 0 , 1 ) {\displaystyle \epsilon \in (0,1)} ist aber

P ( | X n | ϵ ) = P ( X n = e n α ) = e n n 0 {\displaystyle P(|X_{n}|\geq \epsilon )=P(X_{n}=e^{n\alpha })=e^{-n}{\xrightarrow[{}]{n\to \infty }}0} . Also konvergiert die Folge für alle α {\displaystyle \alpha } in Wahrscheinlichkeit gegen 0.

Ein Kriterium, unter dem die Konvergenz im p-ten Mittel aus der Konvergenz in Wahrscheinlichkeit gilt ist, dass eine Majorante Y {\displaystyle Y} mit E ( | Y | p ) < {\displaystyle \operatorname {E} (|Y|^{p})<\infty } existiert, so dass P ( | X n | Y ) = 1 {\displaystyle P(|X_{n}|\leq Y)=1} für alle n {\displaystyle n} gilt. Konvergieren dann die X n {\displaystyle X_{n}} in Wahrscheinlichkeit gegen X {\displaystyle X} , so konvergieren sie auch im p-ten Mittel gegen X {\displaystyle X} . Allgemeiner lässt sich eine Verbindung zwischen der Konvergenz im p-ten Mittel und der Konvergenz in Wahrscheinlichkeit mittels des Konvergenzsatzes von Vitali und der gleichgradigen Integrierbarkeit im p-ten Mittel ziehen: Eine Folge konvergiert genau dann im p-ten Mittel, wenn sie gleichgradig integrierbar im p-ten Mittel ist und sie in Wahrscheinlichkeit konvergiert.

Fast sichere Konvergenz

Aus der fast sicheren Konvergenz folgt die Konvergenz in Wahrscheinlichkeit. Um dies zu sehen, definiert man die Mengen

B N := { ω Ω : n N   | X n X | < ϵ }  und  B := N = 1 B N {\displaystyle B_{N}:=\{\omega \in \Omega \colon \forall n\geq N\ \vert X_{n}-X\vert <\epsilon \}{\text{ und }}B:=\bigcup _{N=1}^{\infty }B_{N}} .

Die B N {\displaystyle B_{N}} bilden eine monoton wachsende Mengenfolge, und die Menge B {\displaystyle B} enthält die Menge

A := { ω Ω : lim n X n = X } {\displaystyle A:=\{\omega \in \Omega \colon \lim _{n\to \infty }X_{n}=X\}}

der Stellen, an denen die Folge konvergiert. Nach Voraussetzung ist P ( A ) = 1 {\displaystyle P(A)=1} und damit auch P ( B ) = 1 {\displaystyle P(B)=1} und demnach lim N P ( B N ) = 1 {\displaystyle \lim _{N\to \infty }P(B_{N})=1} . Durch Komplementbildung folgt dann die Aussage.

Die Umkehrung gilt aber im Allgemeinen nicht. Ein Beispiel hierfür ist die Folge von unabhängigen Bernoulli-Verteilten Zufallsvariablen zum Parameter 1 n {\displaystyle {\tfrac {1}{n}}} , also X n Ber 1 / n {\displaystyle X_{n}\sim \operatorname {Ber} _{1/n}} . Dann ist

lim n P ( | X n | ϵ ) = 0 {\displaystyle \lim _{n\to \infty }P(|X_{n}|\geq \epsilon )=0}

für alle ϵ > 0 {\displaystyle \epsilon >0} und somit konvergiert die Folge in Wahrscheinlichkeit gegen 0. Die Folge konvergiert aber nicht fast sicher, man zeigt dies mit dem hinreichenden Kriterium für fast sichere Konvergenz und dem Borel-Cantelli-Lemma.

Bedingungen, unter denen aus der Konvergenz in Wahrscheinlichkeit die fast sichere Konvergenz folgt, sind:

  • Die Konvergenzgeschwindigkeit der Konvergenz in Wahrscheinlichkeit ist ausreichend schnell, sprich, es gilt
i = 1 P ( | X i X | ϵ ) < {\displaystyle \sum _{i=1}^{\infty }P(\vert X_{i}-X\vert \geq \epsilon )<\infty } .
  • Der Grundraum Ω {\displaystyle \Omega } lässt sich als abzählbare Vereinigung von μ-Atomen darstellen. Dies ist bei Wahrscheinlichkeitsräumen mit höchstens abzählbarer Grundmenge immer möglich.
  • Ist die Folge der Zufallsvariablen fast sicher streng monoton fallend und konvergiert in Wahrscheinlichkeit gegen 0, so konvergiert die Folge fast sicher gegen 0.

Allgemeiner konvergiert eine Folge in Wahrscheinlichkeit genau dann, wenn jede Teilfolge eine weitere, fast sicher konvergente Teilfolge besitzt. Insbesondere besitzt jede in Wahrscheinlichkeit konvergierende Folge eine fast sicher konvergente Teilfolge (man wähle in „ {\displaystyle \Rightarrow } “ als Ausgangsteilfolge die ganze Folge).

Konvergenz in Verteilung

Aus Konvergenz in Wahrscheinlichkeit folgt nach dem Satz von Slutzky die Konvergenz in Verteilung, der Umkehrschluss gilt im Allgemeinen nicht. Ist beispielsweise die Zufallsvariable X {\displaystyle X} Bernoulli-verteilt mit Parameter p = q = 1 2 {\displaystyle p=q={\tfrac {1}{2}}} , also

P ( X = 1 ) = P ( X = 0 ) = 1 2 {\displaystyle P(X=1)=P(X=0)={\frac {1}{2}}} ,

und setzt man X n = 1 X {\displaystyle X_{n}=1-X} für alle n N {\displaystyle n\in \mathbb {N} } , so konvergiert X n {\displaystyle X_{n}} in Verteilung gegen X {\displaystyle X} , da sie dieselbe Verteilung haben. Es gilt aber immer | X n X | = 1 {\displaystyle |X_{n}-X|=1} , die Zufallsvariablen können also nicht in Wahrscheinlichkeit konvergieren. Es existieren jedoch Kriterien, unter denen aus der Konvergenz in Verteilung die Konvergenz in Wahrscheinlichkeit folgt. Sind beispielsweise alle Zufallsvariablen X n {\displaystyle X_{n}} auf demselben Wahrscheinlichkeitsraum definiert und konvergieren in Verteilung gegen die Zufallsvariable X {\displaystyle X} , die fast sicher konstant ist, so konvergieren die X n {\displaystyle X_{n}} auch in Wahrscheinlichkeit gegen X {\displaystyle X} .

Literatur

  • Achim Klenke: Wahrscheinlichkeitstheorie. 3. Auflage. Springer-Verlag, Berlin Heidelberg 2013, ISBN 978-3-642-36017-6, doi:10.1007/978-3-642-36018-3. 
  • Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Für Studium, Berufspraxis und Lehramt. 8. Auflage. Vieweg, Wiesbaden 2005, ISBN 3-8348-0063-5, doi:10.1007/978-3-663-09885-0. 
  • Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, doi:10.1515/9783110215274. 
  • Christian Hesse: Angewandte Wahrscheinlichkeitstheorie. 1. Auflage. Vieweg, Wiesbaden 2003, ISBN 3-528-03183-2, doi:10.1007/978-3-663-01244-3.