Wahrscheinlichkeitsrechnung 2 - Zettel 3

From StatWiki
Jump to: navigation, search

Angabe: media:WR2_Zettel3.pdf

Ungleichungen

Beispiel 17

Sei X eine Zufallsvariable mit Erwartungswert \mu und Varianz 0. Zeige, daß P(X = \mu) = 1\, gilt, einerseits mit der Ungleichung von Tschebyscheff (de:Tschebyschow-Ungleichung), andererseits durch Einsetzen in die Definition der de:Varianz. Wann gilt sogar, daß X konstant gleich \mu ist?

Tschebyscheff-Ungleichung: P(|X - \mu| \ge k) \le \frac{\sigma^2}{k^2} für k > 0\,

P(|X - \mu| \ge k) \le \frac{0}{k^2} = P(|X - \mu| \ge k) \le 0 für k > 0\, 
Genauer Beweis fehlt

Da aber die Verteilungsfunktion auf 1 summieren muss, muss P(X - \mu = 0) = P(\mu - \mu = 0) = 1\, gelten.

Definition der Varianz: Var(X) = E(X^2) - E(X)^2 = E((X - E(X))^2)\,
Defintion des Erwartungswert: E(X) = \sum_i x_i \cdot p_i \, 

0 = E(X^2) - E(X)^2 \,
E(X^2) = E(X)^2 \,
\sum_i x_i^2 \cdot p_i = \left(\sum_i x_i \cdot p_i \right)^2 \,
0 = E((X - E(X))^2) = \sum_i (x_i - \mu)^2 P(X=x_i) \,

Die letzte Summe kann nur dann 0 werden, wenn P(X = \mu) = 1 \, ist, weil sonst ein anderer Wert x_i \ne \mu\,
eine Wahrscheinlichkeit p_i > 0\, bekommen muss und somit die Summe grösser als 0 wird.

Mit Hilfe des Satz der Vollständigen Wahrscheinlichkeit

\mathrm{Fall 1: } x_i \ne \mu \to P(X=x_i) = 0
\mathrm{Fall 2: } x_i = \mu \to P(X=x_i) = 1 - P(X=x_i) = 1 - \sum_{x_i \ne \mu} P(X=x_i) = 1

Beispiel 18

Eine zur Tschebyscheffschen Ungleichung verwandte Ungleichung ist nach Markov benannt (de:Markov-Ungleichung): Sei X eine nichtnegative Zufallsvariable und \mu ihr Erwartungswert, dann ist P(X \ge \epsilon) \le \frac{\mu}{\epsilon}.

Beweise diese Ungleichung. Hinweis: Verwende die Definition des Erwartungswerts von X und schätze diesen ab. Alternativ, definiere die Zufallsvariable Y durch

Y = \begin{cases}d & \mbox{ fur } X \ge d \\ 0 & \mbox{ sonst,} \end{cases}

bemerke, daß 0 \le Y \le X \, und berechne den Erwartungswert von Y.

Der Allgemeine Beweis:

E(X) = \sum_i x_i \cdot p_i \ge \sum_{i, x_i \ge \epsilon} x_i \cdot p_i

Eine Summe der Elemente grösser als ein Epsilon ist (und somit max. den Raum einschränkt) ist kleiner
gleiche der ersten Summe.
 
 \ge \sum_{i, x_i \ge \epsilon} \epsilon \cdot p_i 

Werden jetzt weiters alle x_i \ge \epsilon \, durch \epsilon \, ersetzt ist diese
Summe wieder zwangsweise kleiner gleich der vorherigen Summe.

\sum_{i, x_i \ge \epsilon} \epsilon \cdot p_i = \epsilon \cdot \sum_{i, x_i \ge \epsilon} \ge \epsilon \cdot P(X \ge \epsilon)

\epsilon \, kann herausgehoben werden. Zu letzt kann die Summe Aufgrund der ersten de:Bonferroni-Ungleichung abgeschätzt werden.
Meine Interpretation/Formulierung: Die Summe der Einzelwahrscheinlichkeiten einer Ereignismenge ist immer grösser gleich der Wahrscheinlichkeit 
der Vereinigung dieser Ereignismenge. Dies ist insbesonders dann spannend, wenn sich die beiden Ereignismengen überschneiden, weil dann 

P(E_1 \cup E_2) < P(E_1) + P(E_2) 

gilt.
Um auf die Markov-Ungleichung zu kommen muss noch durch \epsilon \, dividiert werden.

\frac{E(X)}{\epsilon} \ge \cdots \ge \frac{\epsilon \cdot P(X \ge \epsilon)}{\epsilon}
Laut Übung für 0 \le Y \le X \,

E(Y) = \sum_{x_i} y_i P(Y=y_i)
E(Y) = 0 + d P(X \ge d) \to E(Y) \le E(X) \to \frac{E(X)}{d} = P(X \ge d)
Für den stetigen Fall

\mu = E(X) = \int_{-\infty}^\infty f_x(x) \, dx 
= \int_0^\infty f_x(x) \, dx = \int_0^\epsilon f_x(x) \, dx + \int_\epsilon^\infty x f_x(x) \, dx
\ge 0 + \int_\epsilon^\infty \epsilon f_x(x) \, dx \ge \epsilon P(X \ge \epsilon)

Diese Beweisführung wird sehr oft verwendet (also das Aufteilen des Bereichs)!

Beispiel 19

Folgere Tschebyscheffs Ungleichung aus der von Markov.

Die Markov Ungleichung allgemeiner geschrieben ist definiert als

h: \mathbb{R} \to [0, \infty)
P(h(X) \ge \epsilon) \le \frac{E(h(X))}{\epsilon}

Wendet man nun die Markov Ungleichung auf Y = X - E(X) \, und wählt h(x) = x^2 \, so ergibt sich die 
Tschebyscheff Ungleichung (siehe de:Markov-Ungleichung#Varianten)
P((X-E(X))^2 \ge \epsilon) \le \frac{E((X-E(X))^2)}{\epsilon}

Möchte man aus P((X-E(X))^2 \ge \epsilon) \, die Wurzel ziehen und trotzdem rechts vom \ge \,, \epsilon \, haben, 
ersetzt man \epsilon \, mit \epsilon^2 \,. Achtung: Nicht auf den Betrag vergessen beim Wurzelziehen.

P(|X - \mu| \ge \epsilon^2) \le \frac{\sigma^2}{\epsilon}

5. Dichten

Beispiel 20


 f(x,y) = \begin{cases} k (x-y) & \qquad 0 \le y \le x \le 1 \\
0 & \qquad \mathrm{sonst}
\end{cases}


Beispiel 20a

Welchen Wert hat k?


  \int_{x=0}^1 \int_{y=0}^x k (x-y) \, dy \, dx =
  k \int_{x=0}^1 xy - \frac{y^2}{2} \Bigg|_{y=0}^x \, dx =
  k \int_{x=0}^1 x^2 - \frac{x^2}{2} \, dx =
  k \int_{x=0}^1 \frac{x^2}{2} \, dx =
 


 k \frac{x^3}{6} \Bigg|_{x=0}^1 = \frac{k}{6} \to \frac{k}{6} = 1 \to k = 6
 

Beispiel 20b

Berechne die Randdichten.


  f_X(x) = 
  \int_{y=0}^x 6 (x-y) \, dy = 
  6 \left( xy - \frac{y^2}{2} \right) \Bigg|_{y=0}^x = 
  6 \left(x^2 - \frac{x^2}{2}\right) = 
  3 x^2
 
für 0 < x < 1 \,

  f_Y(y) = 
  \int_{x=y}^1 6(x-y) \, dx = 
  6 \left( \frac{x^2}{2} - yx \right)\Big|_{x=y}^1 =
  6 \left( \frac{1}{2} - y - \left(\frac{y^2}{2} - y^2\right) \right) =
 


   = 6 \left( \frac{y^2}{2} - y + \frac{1}{2}\right) =
   \frac{6}{2} (y^2 - 2y + 1) = 
   3 (y - 1)^2
 

Alternativ kann man sich auch die Verteilungsfunktion ausrechnen


  P(X \le z) = 
  \int_{x=0}^z \int_{y=0}^x 6 (x-y) \, dy \, dx =
  6 \int_{x=0}^z xy - \frac{y^2}{2} \Bigg|_{y=0}^x \, dx = 
  6 \int_{x=0}^z x^2 - \frac{x^2}{2} \, dx =
 


  = 6 \int_{x=0}^z \frac{x^2}{2} \, dx =
  6 \frac{x^3}{6} \Bigg|_{x=0}^z = 
  z^3
 

Und nun entweder z = x \, oder z = y - 1 \, wobei ich letzters nicht mehr verstehe.

Beispiel 20c

Sind X\, und Y\, unabhängig?


  f_X(x) \cdot f_Y(y) = 
  3x^2 7(1-y) = 
  21 x^2 - x^2y \ne
  6(x-y)
 

Daher sind X\, und Y\, nicht unabhängig

Beispiel 21

Folgende Überlegungen habe ich mitgeschrieben:

\max(a,b) \le 7 \qquad a=5, b=6 \,

5 \le 7 \, und 6 \le 7 \,

bzw.

\min(a,b) \le 7 \qquad a=5, b=6 \,

5 \le 7 \, oder 6 \le 7 \,
Für das Maximum ist es mir klar, da wird aus dem und eine Multiplikation und aufgrund der Unabhängigkeit 

P(\max(X_1,X_2,\ldots,X_3) \le z ) = P(X_1 \le z)^n \,

Für das Minimum müsste ich doch eine Summe bilden oder? In der Übung haben wir D'Morgan angewendet und somit

P(\min(X_1,X_2,\ldots,X_3) \le z ) = 1 - (1-P(X_1 \le z))^n \,

Beispiel 22

Berechne die Dichte von Z = X + Y \,, wenn X und Y unabhängig gleichverteilt auf [0,\theta] \, sind.

P(Z \le z) = \int_{x=-\infty}^\infty \int_{y=-\infty}^{z-x} f_{(X,Y)}(x,y) \, dy \, dx

Die obere Grenze des inneren Integrals ergibt sich aus

x+y \le z \to y \le z - x

1. Substitionsregel (keine innere Ableitung)

t=x+y \,

daher ergibt sich aus y = t -x \,, 

 y \le z - x \,

t - x \le z - x \to t \le z \,
 
\int_{x=-\infty}^\infty \int_{t=-\infty}^z f_{(X,Y)}(x,t-x) \, dt \, dx

2. Vertausch der Integrale

\int_{t=-\infty}^z \int_{x=-\infty}^\infty f_{(X,Y)}(x,t-x) \, dx \, dt

3. Hauptsatz der Integrationsrechnung

\frac{d}{dt} \int_{-\infty}^{z} f(t) \, dt = f(z)
f_Z(z) = \int_{-\infty}^{\infty} f_{(X,Y)}(x,z-x) \, dx
\int_{-\infty}^{\infty} f_X(x) f_Y(z-x) \, dx
 z \le \theta \,
 = \int_{}^{\theta} \frac{1}{\theta} \frac{1}{\theta}\, dx = \frac{x}{\theta^2} \Big|_0^\theta = \frac{1}{\theta} 
Alternative

F_Z(z) = P(Z \le z) = P(X + Y \le z) = \int_{x=-\infty}^{\infty} \int_{y=-\infty}^{z-x} f_{x,y}(x,y) \, dy \, dx

1. Verwendung der Unabhängigkeit

= \int_{x=-\infty}^{\infty} f_X(x) \int_{y=-\infty}^{z-x} f_Y(y) \, dy \, dx = \int_{x=0}^{\theta} \frac{1}{\theta} \int_{y=0}^{\max(z-x,0)} f_Y(y) \, dy \, dx

maximum wird benötigt weil z-x \ge 0 \,  gelten muss. 

= \int_{x=0}^{\theta} \frac{1}{\theta} \int_{y=0}^{\max(\min(z-x, \theta),0)} \frac{1}{\theta} \, dy \, dx

Letzter Schritt braucht z - x \le \theta \,. Man muss auf den Gültigkeitsbereich aufpassen!

= \frac{1}{\theta^2} \int_{x=0}^{\theta} \int_{y=0}^{\max(\min(z-x, \theta),0)} 1 \, dy \, dx = \frac{1}{\theta^2} \int_{x=0}^{\theta} \max(0, \min(z-x, \theta)) \, dx

Randbemerkung bzgl. z-x \,

\lim_{a \to \infty} \int_{-a}^{a}

Beispiel 23

siehe Beispiel 25 in Zettel4