M-Schätzer

M-Schätzer, auch maximum-likelihood-artige Schätzer stellen eine Klasse von Schätzfunktionen dar, die als Verallgemeinerung der Maximum-Likelihood-Methode angesehen werden können. M-Schätzer sind im Vergleich zu anderen Schätzern wie z. B. den Maximum-Likelihood-Schätzern robuster gegen Ausreißer.

Dieser Artikel behandelt M-Schätzer zur Ermittlung des Lageparameters.

Herleitung durch Verallgemeinerung der Maximum-Likelihood-Methode

Das Prinzip von Maximum-Likelihood-Schätzern beruht darauf, die Funktion

i = 1 n ln f X i ( x i ; Θ ) {\displaystyle \sum _{i=1}^{n}-\ln f_{X_{i}}(x_{i};\Theta )}

mit entsprechender Dichte- bzw. Wahrscheinlichkeitsfunktion f X ( x ) {\displaystyle f_{X}(x)} in Abhängigkeit von Θ {\displaystyle \Theta } zu minimieren.

Die Idee bei M-Schätzern ist, die Funktion ln f X i ( x i ; Θ ) {\displaystyle -\ln f_{X_{i}}(x_{i};\Theta )} durch eine Funktion ρ ( x ; Θ ) {\displaystyle \rho (x;\Theta )} zu ersetzen, welche weniger empfindlich auf Ausreißer reagiert. Aufgabe ist es, den Ausdruck

i = 1 n ρ ( x i ; Θ ) {\displaystyle \sum _{i=1}^{n}\rho (x_{i};\Theta )}

in Abhängigkeit von Θ {\displaystyle \Theta } zu minimieren, bzw. die Gleichung

ψ ( x i ; Θ ) = 0 {\displaystyle \sum \psi (x_{i};\Theta )=0}

mit

ψ ( x i ; Θ ) = ρ Θ ( x i ; Θ ) {\displaystyle \psi (x_{i};\Theta )={\frac {\partial \rho }{\partial \Theta }}(x_{i};\Theta )}

zu lösen.

Jede Lösung dieser Gleichung wird M-Schätzer genannt.

Implizite Definition

Sei F {\displaystyle F} eine beliebige Verteilungsfunktion und ψ {\displaystyle \psi } eine ungerade und monoton wachsende Funktion ungleich 0. Dann ist μ ψ ( F ) {\displaystyle \mu _{\psi }(F)} definiert als die Lösung μ = μ ψ ( F ) {\displaystyle \mu =\mu _{\psi }(F)} der Gleichung

E ( ψ ( x μ ) ) = ψ ( x μ ) d F ( x ) = 0 {\displaystyle \operatorname {E} (\psi (x-\mu ))=\int \psi (x-\mu )dF(x)=0}

Beachtet werden muss, dass abhängig von der Wahl von ψ {\displaystyle \psi } und F {\displaystyle F} es entweder keine, eine oder mehrere Lösungen geben kann. Im Falle einer konkreten Stichprobe wird μ = μ ψ ( F n ) {\displaystyle \mu =\mu _{\psi }(F_{n})} , die Lösung von

1 n i = 1 n ψ ( x i μ ) = ψ ( x μ ) d F n ( x ) = 0 {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}\psi (x_{i}-\mu )=\int \psi (x-\mu )dF_{n}(x)=0}

M-Schätzer genannt.

Geeignete Funktionen ρ

Im Folgenden sind die x i {\displaystyle x_{i}} gemäß

z i = x i Θ S n {\displaystyle z_{i}={\frac {x_{i}-\Theta }{S_{n}}}}

standardisiert, um Skaleninvarianz zu erreichen. S n {\displaystyle S_{n}} stellt hierbei einen Streuungschätzer dar, für den meist der MAD (Median Absolute Deviation) verwendet wird.

Methode ρ ( z ) {\displaystyle \rho (z)} ψ ( z ) {\displaystyle \psi (z)} w ( z ) {\displaystyle w(z)}
Kleinste-Quadrate-Methode ρ L S ( z ) = z 2 2 {\displaystyle \rho _{LS}(z)={\frac {z^{2}}{2}}} ψ L S ( z ) = z {\displaystyle \psi _{LS}(z)=z} w L S ( z ) = 1 {\displaystyle w_{LS}(z)=1}
Huber-k-Schätzer ρ H ( z ) = { 1 2 z 2 | z | k k | z | 1 2 k 2 | z | > k {\displaystyle \rho _{H}(z)={\begin{cases}{\frac {1}{2}}z^{2}&|z|\leq {}k\\k|z|-{\frac {1}{2}}k^{2}&|z|>k\end{cases}}} ψ H ( z ) = { z | z | k k sgn ( z ) | z | > k {\displaystyle \psi _{H}(z)={\begin{cases}z&|z|\leq {}k\\k\operatorname {sgn} (z)&|z|>k\end{cases}}} w H ( z ) = { 1 | z | k k | z | | z | > k {\displaystyle w_{H}(z)={\begin{cases}1&|z|\leq {}k\\{\frac {k}{|z|}}&|z|>k\end{cases}}}
Hampel-Schätzer ρ H a ( z ) = { z 2 2 | z | a a | z | a 2 2 a < | z | b a b a 2 2 + ( c b ) a 2 ( 1 ( c | z | c b ) 2 ) b < | z | c a b a 2 2 + ( c b ) a 2 | z | > c {\displaystyle \rho _{Ha}(z)={\begin{cases}{\frac {z^{2}}{2}}&|z|\leq {}a\\a|z|-{\frac {a^{2}}{2}}&a<|z|\leq b\\ab-{\frac {a^{2}}{2}}+(c-b){\frac {a}{2}}\left(1-\left({\frac {c-|z|}{c-b}}\right)^{2}\right)&b<|z|\leq c\\ab-{\frac {a^{2}}{2}}+(c-b){\frac {a}{2}}&|z|>c\end{cases}}} ψ H a ( z ) = { z | z | a a sgn ( z ) a < | z | b a c | z | c b sgn ( z ) b < | z | c 0 | z | > c {\displaystyle \psi _{Ha}(z)={\begin{cases}z&|z|\leq {}a\\a\,\operatorname {sgn} (z)&a<|z|\leq b\\a{\frac {c-|z|}{c-b}}\operatorname {sgn} (z)&b<|z|\leq c\\0&|z|>c\end{cases}}} w H a ( z ) = { 1 | z | a a 1 | z | a < | z | b a c | z | c b 1 | z | b < | z | c 0 | z | > c {\displaystyle w_{Ha}(z)={\begin{cases}1&|z|\leq {}a\\a{\frac {1}{|z|}}&a<|z|\leq b\\a{\frac {c-|z|}{c-b}}{\frac {1}{|z|}}&b<|z|\leq c\\0&|z|>c\end{cases}}}
Andrews wave ρ A w ( z ) = { a 2 π 2 ( 1 cos ( π z a ) ) | z | a 2 a 2 π 2 | z | > a {\displaystyle \rho _{Aw}(z)={\begin{cases}{\frac {a^{2}}{\pi ^{2}}}\left(1-\cos \left({\frac {\pi z}{a}}\right)\right)&|z|\leq {}a\\{\frac {2a^{2}}{\pi ^{2}}}&|z|>a\end{cases}}} ψ A w ( z ) = { a π sin ( π z a ) | z | a 0 | z | > a {\displaystyle \psi _{Aw}(z)={\begin{cases}{\frac {a}{\pi }}\sin \left({\frac {\pi z}{a}}\right)&|z|\leq {}a\\0&|z|>a\end{cases}}} w A w ( z ) = { a π z sin ( π z a ) | z | a 0 | z | > a {\displaystyle w_{Aw}(z)={\begin{cases}{\frac {a}{\pi z}}\sin \left({\frac {\pi z}{a}}\right)&|z|\leq {}a\\0&|z|>a\end{cases}}}
Tukey's biweight ρ T b ( z ) = { a 2 6 ( 1 ( 1 z 2 a 2 ) 3 ) | z | a a 2 6 | z | > a {\displaystyle \rho _{Tb}(z)={\begin{cases}{\frac {a^{2}}{6}}\left(1-\left(1-{\frac {z^{2}}{a^{2}}}\right)^{3}\right)&|z|\leq {}a\\{\frac {a^{2}}{6}}&|z|>a\end{cases}}} ψ T b ( z ) = { z ( 1 z 2 a 2 ) 2 | z | a 0 | z | > a {\displaystyle \psi _{Tb}(z)={\begin{cases}z\left(1-{\frac {z^{2}}{a^{2}}}\right)^{2}&|z|\leq {}a\\0&|z|>a\end{cases}}} w T b ( z ) = { ( 1 z 2 a 2 ) 2 | z | a 0 | z | > a {\displaystyle w_{Tb}(z)={\begin{cases}\left(1-{\frac {z^{2}}{a^{2}}}\right)^{2}&|z|\leq {}a\\0&|z|>a\end{cases}}}

Die Gewichtsfunktionen im folgenden Bild zeigen die Unterschiede zwischen den Schätzern auf: bei Huber-k haben auch extreme Beobachtungen ein geringes Gewicht, beim Hampel-, Andrews wave- und Tukey's biweight-Schätzer wird extremen Beobachtungen das Gewicht Null zugeordnet.

Gewichtsfunktionen w(z) für verschiedene M-Schätzer. Die Parameterwerte entsprechen den Standardwerten von SPSS.

Robustheit

Bei geeigneter Wahl von ψ {\displaystyle \psi } (ungerade, beschränkt und monoton steigend) haben M-Schätzer einen Bruchpunkt von ϵ = 0 , 5 {\displaystyle \epsilon ^{*}=0{,}5} .[1]

Numerische Lösungsmethode

Für viele Funktionen ρ {\displaystyle \rho } lässt sich keine explizite Lösung angeben, sie muss daher numerisch berechnet werden. Wie üblich zur Berechnung von Nullstellenproblemen bietet sich auch hier das Newton-Raphson-Verfahren an, und es ergibt sich folgende Iterationsvorschrift, wobei wiederum z i = x i μ S n {\displaystyle z_{i}={\frac {x_{i}-\mu }{S_{n}}}}  :

μ k + 1 = μ k + S n i = 1 n ψ ( z i ) i = 1 n ψ ( z i ) {\displaystyle \mu _{k+1}=\mu _{k}+{\frac {S_{n}\sum _{i=1}^{n}\psi (z_{i})}{\sum _{i=1}^{n}\psi ^{\prime }(z_{i})}}}

Als geeigneter Startwert μ 0 {\displaystyle \mu _{0}} wird meist der Median verwendet. Dieses Iterationsverfahren konvergiert sehr schnell, meist sind zwei bis drei Iterationsschritte ausreichend.

W-Schätzer

W-Schätzer sind M-Schätzern sehr ähnlich und liefern im Normalfall gleiche Ergebnisse. Der einzige Unterschied liegt in der Lösung des Minimierungsproblems. W-Schätzer werden meist bei der robusten Regression eingesetzt.

Es wird die Wichtungsfunktion

w ( z ) = ψ ( z ) z {\displaystyle w(z)={\frac {\psi (z)}{z}}}

mit

ψ ( x i ; Θ ) = ρ Θ ( x i ; Θ ) {\displaystyle \psi (x_{i};\Theta )={\frac {\partial \rho }{\partial \Theta }}(x_{i};\Theta )}

eingeführt, mit deren Hilfe das Minimierungsproblem umgeschrieben werden kann in

i = 1 n z i w ( z i ) = 0 {\displaystyle \sum _{i=1}^{n}z_{i}w(z_{i})=0}

Einsetzen der Definition von z i {\displaystyle z_{i}} , ausmultiplizieren und umstellen ergibt schließlich über die Fixpunktgleichung

Θ = i = 1 n x i w ( x i Θ S n ) i = 1 n w ( x i Θ S n ) {\displaystyle \Theta ={\frac {\sum _{i=1}^{n}x_{i}w({\frac {x_{i}-\Theta }{S_{n}}})}{\sum _{i=1}^{n}w({\frac {x_{i}-\Theta }{S_{n}}})}}}

die Iterationsvorschrift

Θ t + 1 = i = 1 n x i w ( x i Θ t S n ) i = 1 n w ( x i Θ t S n ) {\displaystyle \Theta _{t+1}={\frac {\sum _{i=1}^{n}x_{i}w({\frac {x_{i}-\Theta _{t}}{S_{n}}})}{\sum _{i=1}^{n}w({\frac {x_{i}-\Theta _{t}}{S_{n}}})}}}

Siehe auch

  • Sogenannte RANSAC-Algorithmen

Literatur

  • Ricardo A. Maronna, R. Douglas Martin, Victor J. Yohai, Matías Salibián-Barrera: Robust Statistics – Theory and Methods (With R) (= Wiley Series in Probability and Statics). 2. Auflage. Wiley, Hoboken 2019, ISBN 978-1-119-21468-7. 
  • Robert G. Staudte: Robust estimation and testing. Wiley, New York 1990. ISBN 0-471-85547-2
  • Rand R. Wilcox: Introduction to robust estimation and hypothesis testing. Academic Press, San Diego Cal 1997. ISBN 0-12-751545-3

Einzelnachweise

  1. Ricardo A. Maronna, R. Douglas Martin, Victor J. Yohai: Robust Statistics – Theory and Methods. Wiley, Chichester 2006, ISBN 978-0-470-01092-1, S. 59.