Lageparameter (deskriptive Statistik)

Dieser Artikel behandelt Lagemaße in der deskriptiven Statistik. Für Lagemaße als Kennzahlen von Wahrscheinlichkeitsverteilungen siehe Lagemaß (Stochastik).

Als Lageparameter oder Lagemaße bezeichnet man in der deskriptiven Statistik gewisse Kennzahlen beobachter Werte (Daten), die eine zentrale Tendenz des Datensatzes zum Ausdruck bringen.[1] Im einfachsten Fall geben sie an, wo sich das Zentrum der Beobachtungswerte befindet, also in welchem Bereich sich ein großer Teil der Beobachtungswerte befindet. Typische Beispiele für Lageparameter sind das mittlere Einkommen und das durchschnittliche Einkommen bei Erhebungen des Einkommens.

Definition

Im Folgenden wird davon ausgegangen, dass x = ( x 1 , , x n ) R n {\displaystyle x=(x_{1},\dots ,x_{n})\in \mathbb {R} ^{n}} reellwertige Beobachtungswerte vorliegen, die inhaltlich zu einer Variablen gehören. Dies können Messwerte sein. Es kann sich um Stichprobenwerte, als um realisierte Werte von Stichprobenvariablen handeln, es kann sich aber auch um Beobachtungswerte einer Gesamtheit handeln, die nicht als Stichprobe entstanden sind und auch nicht als Stichprobenwerte aufgefasst werden.

Manche Autoren fordern von einem Lageparameter L : R n R {\displaystyle L:\mathbb {R} ^{n}\to \mathbb {R} } die sogenannte Verschiebungsäquivarianz.[2] Ist L ( x ) {\displaystyle L(x)} ein Lageparameter und ist

y = ( x 1 + a , x 2 + a , , x n + a ) {\displaystyle y=(x_{1}+a,x_{2}+a,\dots ,x_{n}+a)}

ein um den Wert a {\displaystyle a} verschobener Datensatz, so soll

L ( y ) = a + L ( x ) {\displaystyle L(y)=a+L(x)}

gelten. Eine Verschiebung der Daten um einen gewissen Wert resultiert also immer in einer Verschiebung des Lageparameters um diesen Wert. Nicht alle Parameter, die gängigerweise als Lageparameter bezeichnet werden, erfüllen diese Bedingung. Meist werden deshalb Lageparameter umschrieben als Kennzahlen, die eine zentrale Tendenz des Datensatzes zum Ausdruck bringen.[3][1]

Wichtige Lageparameter

Im Folgenden wird von Beobachtungswerten ( x 1 , , x n ) {\displaystyle (x_{1},\dots ,x_{n})} mit x i R {\displaystyle x_{i}\in \mathbb {R} } für i = 1 , , n {\displaystyle i=1,\dots ,n} ausgegangen, die durch einen reellwertigen Lageparameter charakterisiert werden.

Modus

Hauptartikel: Modus (Statistik)

Der Modus oder Modalwert D {\displaystyle D} der Beobachtungswerte ist als derjenige Wert, der am häufigsten auftritt. Treten mehrere Werte gleich häufig auf, so werden sie alle als Modus bezeichnet, der Modus ist also nicht eindeutig. Man spricht dann von einer multimodalen Häufigkeitsverteilung. Der Modus existiert für beliebige Beobachtungswerte, da er sich im Gegensatz zu den anderen Lagemaßen schon definieren lässt, wenn nur eine Nominalskala gegeben ist.

Median

Hauptartikel: Median

Der Median, mit x ~ {\displaystyle {\tilde {x}}} , x 0 , 5 ~ {\displaystyle {\tilde {x_{0{,}5}}}} oder x m e d {\displaystyle x_{med}} bezeichnet, ist derjenige Wert, der die Beobachtungswerte in zwei Hälften teilt:

  • Eine Hälfte kleiner als der Median
  • Eine Hälfte größer als der Median

Dazu wird zuerst die Beobachtungswerte ( x 1 , x 2 , , x n ) {\displaystyle (x_{1},x_{2},\dots ,x_{n})} der Größe nach geordnet. Der so entstandene Datensatz wird dann mit ( x ( 1 ) , x ( 2 ) , , x ( n ) ) {\displaystyle (x_{(1)},x_{(2)},\dots ,x_{(n)})} bezeichnet. Somit ist x ( k ) {\displaystyle x_{(k)}} der k {\displaystyle k} -größte Wert der Beobachtungswerte. Der Median wird dann definiert als

x ~ = { x ( n + 1 2 )  falls  n  ungerade 1 2 ( x ( n 2 ) + x ( n 2 + 1 ) )  falls  n  gerade. {\displaystyle {\tilde {x}}={\begin{cases}x_{({\frac {n+1}{2}})}&{\text{ falls }}n{\text{ ungerade}}\\{\frac {1}{2}}\left(x_{({\frac {n}{2}})}+x_{({\frac {n}{2}}+1)}\right)&{\text{ falls }}n{\text{ gerade.}}\end{cases}}}

Arithmetisches Mittel

Hauptartikel: Arithmetisches Mittel

Das arithmetische Mittel, auch empirischer Mittelwert oder einfach kurz Mittelwert genannt und mit x ¯ {\displaystyle {\bar {x}}} bezeichnet, ist die Summe der Merkmalswerte, geteilt durch die Anzahl der beobachteten Werte. Es ist also

x ¯ = 1 n i = 1 n x i . {\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}\;.}

Nach Aggregation und dem Vorliegen der absoluten Häufigkeiten F 1 , , F m {\displaystyle F_{1},\dots ,F_{m}} für m {\displaystyle m} verschiedene beobachtete Werte a 1 , , a m {\displaystyle a_{1},\dots ,a_{m}} (es gilt m n {\displaystyle m\leq n} ) kann

x ¯ = 1 n j = 1 m a j F j {\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{j=1}^{m}a_{j}F_{j}}

verwendet werden. Dabei ist n {\displaystyle n} die Anzahl der beobachteten Werte, i {\displaystyle i} der Index über alle beobachteten Werte, j {\displaystyle j} ein Index über die Menge beobachteten voneinander verschiedenen Beobachtungswerte. Mit den relativen Häufigkeiten f j = F j / n {\displaystyle f_{j}=F_{j}/n} für j = 1 , , m {\displaystyle j=1,\dots ,m} gilt

x ¯ = j = 1 m a j f j . {\displaystyle {\bar {x}}=\sum _{j=1}^{m}a_{j}f_{j}\;.}

Beispiel

Es werden die Beobachtungswerte

x = ( 10 , 1 , 3 , 1 , 9 , 8 , 9 ) {\displaystyle x=(10,1,3,1,9,8,9)}

betrachtet.

  • Die Werte 10 {\displaystyle 10} , 3 {\displaystyle 3} und 8 {\displaystyle 8} sind je nur einmal vertreten, die Werte 1 {\displaystyle 1} und 9 {\displaystyle 9} zweimal. Kein Wert wird dreimal angenommen. Damit sind die beiden Modi (Modalwerte)
D 1 = 1 {\displaystyle D_{1}=1} und D 2 = 9 {\displaystyle D_{2}=9}
  • Zur Bestimmung des Medians sortiert man die Beobachtungswerte der Größe nach und erhält so
s = ( 1 , 1 , 3 , 8 , 9 , 9 , 10 ) {\displaystyle s=(1,1,3,8,9,9,10)}
Es ist n = 7 {\displaystyle n=7} ungerade, also nach der Definition
x ~ = x ( ( 7 + 1 ) / 2 ) = x ( 4 ) = 8 {\displaystyle {\tilde {x}}=x_{((7+1)/2)}=x_{(4)}=8} .
  • Als arithmetisches Mittel erhält man
x ¯ = 1 7 ( 10 + 1 + 3 + 1 + 9 + 8 + 9 ) = 1 7 41 5 , 9 . {\displaystyle {\bar {x}}={\frac {1}{7}}\left(10+1+3+1+9+8+9\right)={\frac {1}{7}}\cdot 41\approx 5{,}9\;.}
Zu den voneinander verschiedenen Beobachtungswerten ( 10 , 1 , 3 , 9 , 8 ) {\displaystyle (10,1,3,9,8)} gehören die absoluten Häufigkeiten ( F 1 , , F 5 ) = ( 1 , 2 , 1 , 2 , 1 ) {\displaystyle (F_{1},\dots ,F_{5})=(1,2,1,2,1)} und die relativen Häufigkeiten ( f 1 , , f 5 ) = ( 1 / 7 , 2 / 7 , 1 / 7 , 2 / 7 , 1 / 7 ) {\displaystyle (f_{1},\dots ,f_{5})=(1/7,2/7,1/7,2/7,1/7)} . Damit ergibt sich das arithmetische Mittel mit den absoluten Häufigkeiten als
x ¯ = 1 7 ( 1 10 + 2 1 + 1 3 + 2 9 + 1 8 ) {\displaystyle {\bar {x}}={\frac {1}{7}}\left(1\cdot 10+2\cdot 1+1\cdot 3+2\cdot 9+1\cdot 8\right)}
und mit den relativen Häufigkeiten als
x ¯ = 1 7 10 + 2 7 1 + 1 7 3 + 2 7 9 + 1 7 8 . {\displaystyle {\bar {x}}={\frac {1}{7}}\cdot 10+{\frac {2}{7}}\cdot 1+{\frac {1}{7}}\cdot 3+{\frac {2}{7}}\cdot 9+{\frac {1}{7}}\cdot 8\;.}

Eigenschaften

Existenz

Vorteil des Modus ist, dass er stets existiert. So lässt sich auch bei Beobachtungswerten wie

( Zebra , Elefant , Giraffe , Zebra ) {\displaystyle ({\text{Zebra}},{\text{Elefant}},{\text{Giraffe}},{\text{Zebra}})}

noch der Modus zu Zebra zu bestimmen. Die Bestimmung des Medians ist hier nicht sinnvoll, da keine klar definierte Ordnung gegeben ist. Noch unsinniger wäre die Bestimmung des arithmetischen Mittels, da unklar ist, was mit Zebra + Giraffe {\displaystyle {\text{Zebra}}+{\text{Giraffe}}} gemeint ist.

In Situationen, in denen eine Ordnungsstruktur gegeben ist, ist auch der Median definiert. Auch in solchen Situationen ist das arithmetische Mittel im Allgemeinen nicht definiert, da aus dem Vorhandensein von größer/kleiner-Relationen nicht folgt, dass addiert werden kann.

Eindeutigkeit

Wie bereits im oberen Beispiel gezeigt wurde, ist der Modus im Allgemeinen nicht eindeutig. Im Gegensatz dazu ist der Median eindeutig, jedoch existieren in der Literatur leicht unterschiedliche Definitionen, welche aus verschiedenen pragmatischen Überlegungen entstammen. Daher kann bei Verwendung verschiedener Definitionen der Median auch verschiedene Werte annehmen.

Robustheit

Der Median ist im Gegensatz zum arithmetischen Mittel robust. Dies bedeutet, dass er sich bei Änderungen der Beobachtungswerte in wenigen Werten – z. B. einzelnen Ausreißern – nur wenig verändert. Betrachtet man zum Beispiel die oben gegebenen Beobachtungswerte

x = ( 10 , 1 , 3 , 1 , 9 , 8 , 9 ) {\displaystyle x=(10,1,3,1,9,8,9)} ,

so ist wie bereits gezeigt wurde x m e d = 8 {\displaystyle x_{med}=8} und x ¯ = 41 7 5 , 9 {\displaystyle {\overline {x}}={\frac {41}{7}}\approx 5{,}9} . Betrachtet man nun die modifizierten Beobachtungswerte

x = ( 10 , 1 , 3 , 1 , 9 , 8 , 1000 ) {\displaystyle x'=(10,1,3,1,9,8,1000)} ,

bei denen nur ein Wert von 9 zu 1000 verändert wurde, so ergibt sich nach neuerlicher Berechnung für den Median immer noch x m e d = 8 {\displaystyle x'_{med}=8} , wohingegen für das arithmetische Mittel x ¯ = 1032 7 147 {\displaystyle {\overline {x}}'={\frac {1032}{7}}\approx 147} gilt. Der Ausreißer macht sich also beim arithmetischen Mittel stark bemerkbar, während er den Median nicht verändert.

Weitere Lagemaße

Bereichsmitte

Der arithmetische Mittelwert aus kleinstem und größtem Beobachtungswert ist die Bereichsmitte.[4]

Quartile und Quantile

Hauptartikel: Empirisches Quantil

Eng mit dem Median verwandt sind die sogenannten (p-)Quantile. Ein p {\displaystyle p} -Quantil ist als diejenige Zahl definiert, so dass ein Anteil von p {\displaystyle p} , also p 100 % {\displaystyle p\cdot 100\,\%} , der Beobachtungswerte kleiner als das p {\displaystyle p} -Quantil sind und ein Anteil von 1 p {\displaystyle 1-p} , also ( 1 p ) 100 % {\displaystyle (1-p)\cdot 100\,\%} , der Beobachtungswerte größer sind als das p {\displaystyle p} -Quantil. Somit ist der Median genau das 1 2 {\displaystyle {\tfrac {1}{2}}} -Quantil.

Einige p-Quantile zu speziellen p-Werten tragen Eigennamen, zu ihnen zählen die Terzile, die Quartile, die Quintile, die Dezile und die Perzentile.

Getrimmter Mittelwert

Hauptartikel: Getrimmter Mittelwert

Der getrimmte Mittelwert entsteht, wenn man aus einem Datensatz einen gewissen Anteil der größten und der kleinsten Werte weglässt und aus den restlichen Daten das arithmetische Mittel bildet.

Geometrisches Mittel

Hauptartikel: Geometrisches Mittel

In einem weiteren Sinn zählt auch das geometrische Mittel zu den Lageparametern.[5] Es ist definiert als die n {\displaystyle n} -te Wurzel des Produktes positiver Beobachtungswerte ( x 1 , , x n ) {\displaystyle (x_{1},\dots ,x_{n})} , also

x geom = x 1 x 2 x n n . {\displaystyle x_{\text{geom}}={\sqrt[{n}]{x_{1}\cdot x_{2}\dotsm x_{n}}}\;.}

Harmonisches Mittel

Hauptartikel: Harmonisches Mittel

Ein weiterer Lageparameter ist das harmonische Mittel.[6] Es ist gegeben als

x harm = n 1 x 1 + + 1 x n {\displaystyle x_{\text{harm}}={\frac {n}{{\frac {1}{x_{1}}}+\dotsb +{\frac {1}{x_{n}}}}}} .

Winsorisiertes Mittel und Lehmann-Hodges-Mittel

Weitere Lagemaße sind das sogenannte winsorisierte Mittel und das Lehmann-Hodges-Mittel.[7]

Weblinks

Einzelnachweise

  1. a b Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0, S. 67, doi:10.1007/978-3-658-13640-6. 
  2. Helge Toutenburg, Christian Heumann: Deskriptive Statistik. 6. Auflage. Springer-Verlag, Berlin/Heidelberg 2008, ISBN 978-3-540-77787-8, S. 49, doi:10.1007/978-3-540-77788-5. 
  3. Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 36, doi:10.1007/978-3-8349-4748-2. 
  4. Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 41. 
  5. Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0, S. 89, doi:10.1007/978-3-658-13640-6. 
  6. Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 44, doi:10.1007/978-3-8349-4748-2. 
  7. Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Für Studium, Berufspraxis und Lehramt. 8. Auflage. Vieweg, Wiesbaden 2005, ISBN 3-8348-0063-5, S. 171, doi:10.1007/978-3-663-09885-0.