Mathematische Statistik - ML-Prinzip und Informationstheorie

From StatWiki

Jump to: navigation, search

Contents

ML-Prinzip und Informationstheorie

Entropie von X

 D(\theta_0, \theta) := - \operatorname{E}_{\theta_0} \log p_\theta(x)\,

Gegenseitige Entropie (mutual entropy) = Kulbak-Leibler Information ist definiert als

 K(\theta_0,\theta_1) : = D(\theta_0,\theta_1) - D(\theta_0,\theta_0) = - \operatorname{E}_{\theta_0} \log \frac{p_{\theta_1}(x)}{p_{\theta_0}(x)}\,

Lemma 6.1

KL-Information ist sowohl für diskrete als auch für stetige Verteilungen wohldefiniert. Betrachte zwei beliebige Verteilungen  \operatorname{P}_{\theta_0}, \operatorname{P}_{\theta_1}\,

Dann ist  K(\theta_0, \theta_1) \ge 0\, und

 K(\theta_0, \theta_1) = 0 \iff \operatorname P (\{x | p_{\theta_0}(x) = p_{\theta_1}(x) \}) = 1 \, sowohl für  \operatorname P = \operatorname{P}_{\theta_0}\, als auch  \operatorname P = \operatorname{P}_{\theta_1}\,

(Beweis siehe Scans)

Aus Lemma 6.1 folgt:

  • D(\theta_0, \theta)  \, ist Diskrepanz da für
  • MLE ist ein Minimum-Kontrastschätzer
  • MLE minimiert auch KL-Information zwischen empirscher Verteilungsfunktion  P_n \, und  P_\theta \, in  \theta \in \Theta \, für unabhängige Beobachtungen

 K(P_n, \theta) = - \sum_{x_i \in \{x_i, \ldots, x_n\}} \frac 1 n \log \frac{p_\theta(x_i)}{\frac 1 n} = - \frac 1 n \sum_{i=1}^n l_{x_i} (\theta) - \log n \,

Falls  \Theta \, offen ist,  l_x(\theta)  \, differenzierbar und  \exists \hat \theta \,, dann erfüllt  \hat \theta \,

 \nabla_\theta l_x(\hat \theta) = 0 \, (Likelihood-Gleichung)

Falls  X = (X_1, \ldots, X_n) \, mit  X_i \, unabhängig und W-Funktion (Dichte)  p_\theta(x_i) \, dann

 \nabla_\theta l_x(\theta) = \sum_{i=1}^n \nabla_\theta l_{x_i}(\theta) \,

Beispiel 6.6

(a)

Poisson-Verteilung:  p_\lambda(x) = e^{-\lambda} \frac{\lambda^x}{x!} \, x \in \{0,1,2,\ldots\}\,

Möchten aus  X \, (z.b. # Ankünfte von Kunden in Beobachtungszeitraum)

 \lambda \, schätzen:

l_x(\lambda) = -\lambda + x \log \lambda - \log x! \,

 \frac{\partial}{\partial \lambda} l_x(\lambda) = -1 + \frac{x}{\lambda} \, Nullsetzen  \Rightarrow \lambda = x \,

 \frac{\partial^2}{\partial \lambda^2} l_x(\lambda) = - \frac{x}{\lambda^2} < 0\, für  x > 0 \Rightarrow \max \, (für  x = 0 \nexists \, MLE)

(b)

Schätzen Populationsgrösse  X_1, \ldots, X_n \, iid  \sim U\{1,\ldots,\theta\} \, (siehe Beispiel 4.2)

 L_x(\theta) = \begin{cases}
\frac{1}{\theta^n} & \mbox{ fuer } \max X_i \le \theta \\
0 & \mbox{ sonst }
\end{cases} \,

 \hat \theta = \max_i X_i  \, maximiert  L_x(\theta) \,

differenzieren funktioniert hier nicht.

Vgl. mit Momentschätzer:  \operatorname E (X_i) = \frac{\theta + 1}{2} \, \bar{x} = \frac{\hat \theta + 1}{2} \Rightarrow \color{Red} \theta \color{Black} = 2 \bar{x} - 1\,

(c)

Sei  Y_i \sim N(x_i^t \color{Red} \beta \color{Black}, \sigma^2 \, mit  \sigma^2  \, bekannt;  \color{Red} \beta \color{Black} \, unbekannt

 
\begin{align}
l_x(\color{Red} \beta \color{Black}) 
& = \log \left[ \prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} e^{- \frac{(y_i - x_i^t \color{Red} \beta \color{Black})^2}{2\sigma^2}} \right] \\
& = \frac n 2 \log 2 \pi \sigma^2 \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - x_i^t \color{Red} \beta \color{Black})^2
\end{align}
\,

Maximum von  l_x(\color{Red} \beta \color{Black}) \, ist äquivalent zu

 \sum_{i=1}^n (y_i - x_i^t \color{Red} \beta \color{Black})^2 \rightarrow \min \,

dh zu KQ-Schätzer in klassischen linearen Modellen

= ML-Schätzer in Exponentialfamilien

Untersuchen: Existenz, Eindeutigkeit, Berechnung

== Satz 6.1 ]] Sei  \mathcal P \, kanonische Exponentialfamilie erzeugt durch  (T, h) \,

Sei weiters:

(a) natürlicher Parameterraum  \Epsilon \, (b) Exponentialfamilie von Rang  k \, (c) Für  \tilde x \, beobachtete Daten und  t_0 = T(\tilde x) \in \mathbb{R}^k \,

 \sum_{i=1}^k c_i T_i(x) > \sum_{i=1}^k c_i t_{\theta, i} \,

 \operatorname P (c^t T(X) > c^t t_0 ) > 0 \, \forall c \ne 0 \, *
Dann  \exists \, MLE  \hat \eta \,, ist eindeutig und löst

 \operatorname{E}_{\eta} (T(X)) = \dot A (\eta) = t_0 \, **

Falls * nicht erfüllt ist,  \nexists \, MLE und ** hat keine Lösung

Bemerkung 6.3

  • Bedingung ** im Satz ist genau dann erfüllt wenn  t_0 \in C_T^0 \, wobei  C_T^0 \, das Innere des konvexen Trägers  C_T  \, von T ist.

(  C_T \, definiert als kleinste konvexe Menge, sodass  \operatorname P(T \in C_T) = 1 \,

  • Unter Bedingung vom Satz und falls I eine stetige Dichte auf  \mathbb{R}^k  \, hat ist  \operatorname P (T \in \partial C_T) = 0  \, und MLE  \exists \, mit Wahrscheinlichkeit 1

Beweissskizze (Satz 6.1) siehe Folie S.6

Beispiel 6.7

(a)

 X_1, \ldots, X_n \sim N(\mu, \sigma^2), \theta = \binom{\mu}{\sigma^2}\, und iid. Nach Beispiel 5.4:  T(x) = \binom{\sum x_i}{\sum x_i^2} \,

Offenbar  C_T = \mathbb{R} \times \mathbb{R}^+ \,. Für  n\ge2 \, hat  T \, Dichte.

 \Rightarrow  \, MLE  \exists \, mit Wahrscheinlichkeit 1

f"ur  n=1 \, gilt  C_T^0 = \empty \Rightarrow  \, MLE  \nexists \, (formales maximieren würde  \hat \sigma = 0 \, ergeben, da dann  l_X(\theta) = \infty \,)

(b)

 X_1, \ldots, X_n \, iid Gamma mit Dichte  g_{p,\lambda} (x) = \frac{\lambda^p}{\Gamma(p)} x^{p-1} e^{-\lambda x} \, mit  p>0, \lambda >0, x>0 \, Kanonische Exponentialfamilie mit  T(x) = \binom{\sum \log x_i}{\sum x_i}, h(x) = \frac 1 x \,

Dann  \eta_1 = p, \eta_2 = - \lambda, A(\eta_1, \eta_2) = n (\log \Gamma(\eta_1) - \eta_1 \log (-\eta_2))\,

Nach Satz 6.1 und Bemerkung 6.3 hat  T \, Dichte für  n \ge 2 \Rightarrow \exists \, eindeutiger MLE mit Wahrscheinlichkeit 1

MLE löst:  \frac{\Gamma'}{\Gamma} (\hat p) - \log(\hat \lambda) = \frac 1 n \sum_{i=1}^n \log x_i \, und  \frac{\hat p}{\hat \lambda} = \bar x \,

 \Rightarrow \, Lösung eindeutig, muss aber numerich ermittelt werden

(c)

 X \sim B(n,p) \, Nach Beispiel 5.16:  p_\theta(x) = \binom{n}{x} e^{x \log \frac{\theta}{1 - \theta} + n \log (1 - \theta)} \, ist kanonische Exponentialform für  \eta = \log \frac{\theta}{1-\theta} \,

 l_x(\theta) = \log \binom{n}{x} + x \eta + n \log \frac{1}{1+\theta^2} \,

löse  \frac{\theta}{1-\theta} = e^\eta \, and  \theta (1-e^\eta) = e^\eta \,

 T(x) = x \, C_T = [0,n] \,

 \frac{\partial}{\partial \eta} l_x(\theta) = x - n \frac{e^\eta}{1+e^\eta} = 0 \Rightarrow \, MLE  \nexists \, für  x = 0 \, (\eta \rightarrow - \infty)\, and  x = \eta \, (\eta \rightarrow \infty) \,

da dann  T \in \partial C_T \, bzw. (*) in Satz 6.1 nicht erfüllt für  c = -1 \,

Trotzdem naheliegende Erweiterung für  \theta \, selbst:

 \eta = - \infty \Rightarrow \log \frac{\theta}{1-\theta} = - \infty \Rightarrow \theta = 0 \,

In gekrümmten Exponentialfamilien  \exists \, Bedingungen analog zu Satz 6.1 die Existenz von MLE garantieren. Eindeutigkeit komplizierter.

Ausserhalb von Exponentialfamilien: Existenz/Eindeutigkeit des MLE hängt von konkreter Situation ab.

Personal tools