Varianz, Standardabweichung und Autokennzeichen

Mit einem Erwartungswert oder Mittelwert können viele etwas anfangen. Aber sobald man von der Varianz oder von der Standardabweichung redet, verlieren etliche die Vorstellung hierüber. Wie kann man sich diese vorstellen und was beschreiben sie? Für die meisten sind die Varianz und die Standardabweichung Größen, die eine Verteilung beschreiben. Bei einer Normalverteilung braucht man sie beispielsweise, um verschiedene Wahrscheinlichkeiten zu bestimmen. Wir wollen uns nun aber von der theoretischen Beschreibung verabschieden um einen vielleicht neuen Blickwinkel auf die Varianz und auf die Standardabweichung zu erhalten.

Wir richten nun unseren Blick auf Autokennzeichen. Genauer gesagt auf die Zahlen die auf den Autokennzeichen drauf stehen.Die Anzahl der Ziffern ist auf 4 beschränkt, sodass theoretisch alle Zahlen zwischen 1 und 9.999 erreicht werden können. Doch wie sieht die Verteilung der Zahlen aus? Gibt es eher mehr kleinere Zahlen oder eher größere? Liegt der Mittelwert aller Zahlen bei ungefähr 5.000, also der Mitte aller möglichen Zahlen?

Bei einer (fiktiven) Untersuchung wurden 100.000 Autos untersucht und eine Varianz von 9.000.000 festgestellt. Das Statistikteam von 3HTAM wollte vorerst keine Aussage über den beobachteten Mittelwert preisgeben, außer dass dieser kleiner als 5.000 ist.
Welche der folgenden Aussagen über den Mittelwert könnten wahr sein?

Der Mittelwert ist kleiner als 500.
Der Mittelwert ist kleiner als 1.000.
Der Mittelwert ist größer als 1.000.
Der Mittelwert ist größer als 2.000.

Die einzige Information die wir haben ist die geschätzte Varianz der Verteilung. Ziehen wir nun die Wurzel der Varianz, so erhalten wir eine Standardabweichung von 3.000. Wie kann man nun aber eine Standardabweichung von 3.000 feststehen? Ist die Standardabweichung eher klein, so liegen die meisten der Ergebnisse eher um den Erwartungswert der Verteilung. Bei einer größeren Standardabweichung streuen sich die Ergebnisse mehr um diesen „Mittelwert“. Ist 3.000 ein großer oder eher kleiner Wert in diesem Fall?

Hilfreich könnte an dieser Stelle die Bhatia-Davis-Ungleichung sein. \[ \sigma^2 \leq \left( M - \mu \right) \cdot \left(\mu - m\right) \] Hierbei ist $\sigma^2$ die Varianz, $\mu$ der Erwartungswert, $M$ der größte Wert der Verteilung und $m$ der kleinste Wert der Verteilung. In unserem Falle haben wir also die folgenden Werte:

$\sigma = 3.000$
$M = 9.999$
$m = 1$
$\mu =~?$

Unsere Aufgabe lautet also nun alle $\mu$ zu bestimmen, für die die obige Ungleichung erfüllt ist. An dieser Stelle untersucht man zuerst die Punkte, wann die Ungleichung zu einer Gleichung wird, also: \[ 9.000.000 = \left( 9.999 - \mu \right) \cdot \left(\mu -1\right) \] Wir haben hier nichts anderes als eine Funktion zweiten Grades ($\mu$ statt $x$ als Variable), die wir zum Beispiel mittels $PQ$-Formel auflösen können. \begin{align} 9.000.000 &= \left( 9.999 - \mu \right) \cdot \left(\mu -1\right) \\ 9.000.000 &= 9.999 \mu -9.999 - \mu^2 + \mu \\ 0 &= 10.000 \mu -9.009.999 - \mu^2 \\ 0 &= \mu^2 -10.000\mu + 9.009.999 \\ \mu_{1,2} &= 5.000 \pm \sqrt{ 5.000^2 -9.009.999} \end{align} Der Wurzelausdruck ist laut Taschenrechner ungefähr 3.999. Wir haben also die beiden Grenzen $\mu_1 = 8.999$ und $\mu_2 = 1.001$. Wir kennen nun die beiden Grenzfälle der Ungleichung. Für welche Werte ist die obige Ungleichung noch erfüllt? Um diese Frage zu klären, nimmt man sich eine beliebige Zahl zwischen den beiden herausgefundenen Grenzen. Wir nehmen zum Beispiel 5.000 und prüfen, ob die Ungleichung erfüllt ist, oder nicht. \[ (9.999-5.000) \cdot (5.000-1) = 4.999 \cdot 4.999 = 24.990.001 > 9.000.000 \] Demnach ist die Ungleichung für alle $\mu$ zwischen 1.001 und 8.999 erfüllt. Für die obigen Behauptungen folgt somit:

Der Mittelwert ist kleiner als 500. (ist falsch)
Der Mittelwert ist kleiner als 1000. (ist falsch)
Der Mittelwert ist größer als 1000. (ist richtig)
Der Mittelwert ist größer als 2000. (keine Aussage möglich)

Wir haben nun den Erwartungswert der Verteilung eingegrenzt, aber wie sieht es mit der Varianz aus. Eigentlich war es ja Ziel, einen neuen Blickwinkel auf diese Kenngröße zu geben. Was würde passieren, wenn die beobachtete Varianz größer werden würde? In der $PQ$-Formel taucht die Varianz unterhalb der Wurzel auf: \[ \mu_{1,2} = 5.000 \pm \sqrt{ 5.000^2 -9.009.999} \] Je größer die Varianz desto kleiner wird der Wurzelausdruck. Ein kleiner Wurzelausdruck bedeutet außerdem, dass das mögliche Intervall $[\mu_1,\mu_2]$ kleiner wird und der Erwartungswert eher in der Mitte der möglichen Zahlen liegt. Bei einer kleineren Varianz wird das Intervall immer größer, sodass der Erwartungswert überall liegen kann.

Beweis der Bhatia-Davis-Ungleichung

Da die obige Ungleichung von Bhatia-Davis nicht aus dem Schulalltag bekannt ist, möchte ich diese für Verteilungen mit einer Wahrscheinlichkeitsdichte beweisen. Zur Vereinfachung setzen wir zuerst $m=0$. Es sei $X$ eine Zufallsvariable die nur Werte zwischen 0 und $M$ annehmen kann und $f(x)$ die zugehörige Dichtefunktion. Für die Varianz gilt die Beziehung: \[ VAR(X) = E(X^2) - \left( E(X) \right)^2 \] Setzen wir dies zusammen mit $m=0$ in die Ungleichung ein, so erhalten wir: \[ E(X^2) - \mu^2 \leq M \cdot \mu - \mu^2 \] Es bleibt also folgende Ungleichung noch zu zeigen: \[ E(X^2) \leq M \cdot \mu \] Beide Seiten der Ungleichung können wir nun mittels der Dichtefunktion angeben. Im Allgemeinen gilt: \[ E(X^a) = \int_{- \infty}^{\infty} x^a \cdot f(x) ~\mathrm dx \] Setzen wir nun $a=1$ und $a=2$ sowie unsere Grenzen $0$ und $M$ ein, so erhalten wir die Ungleichung: \[ \int_0^M x^2 \cdot f(x) ~\mathrm dx \leq \int_0^M M\cdot x \cdot f(x) ~\mathrm dx \] Da wir uns auf einem positive Intervall befinden ($M$ ist offensichtlich positiv) und die Intervallgrenzen bei beiden Integralen gleich sind, können wir mithilfe des Integranden argumentieren. Da im Intervall $[0,M]$ unsere Variable $x$ immer kleiner als $M$ ist, folgt auch, dass $x^2 \cdot f(x)$ immer kleiner als $M \cdot x \cdot f(x)$ ist. Somit ist auch das rechte Integral immer größer als das Linke und die Ungleichung ist für diesen Fall bewiesen.

Wir wollen nun den Fall für eine allgemeine untere Schranke beweisen. Sei hierfür $Y$ eine weitere Zufallsvariable mit $\mu_Y$ als Erwartungswert und $m_Y \neq 0$ und $M_Y$ beliebig. Wir definieren dann \[ X := Y -m_Y \] als weitere Zufallsvariable. Diese hat aufgrund der Verschiebung den Erwartungswert: \[ \mu_X = \mu_Y -m_Y\] Für die Schranken von $X$ gilt offensichtlich $m_X = 0$ und $M_X = M_Y -m_Y$. Wir sind also wieder in dem Fall, dass die untere Schranke exakt Null ist. \begin{align} VAR(X) &\leq (M_X - \mu_X) \cdot (\mu_X -m_X) \\ &\leq (M_Y -m_Y -(\mu_Y - m_Y)) \cdot ( \mu_Y -m_Y -0) \\ &\leq (M_Y - \mu_Y) \cdot (\mu_Y -m_Y) \end{align} Wir haben also schon einmal die rechte Seite der Bhatia-Davis-Ungleichung. Was passiert nun aber mit der Varianz? Für die Varianz einer linear verschobenen Zufallsvariablen gilt: \[ VAR(Y) = VAR(Y + a) \qquad \text{ für alle } a \in \mathbb{R}\] Für uns bedeutet dies das Ende des Beweises, denn: \[VAR(Y) = VAR(X) \leq (M_Y - \mu_Y) \cdot (\mu_Y -m_Y)\]

Bauernmultiplikation

Labyrinth