Empirická distribuční funkce

Zelená křivka, která se asymptoticky blíží v

-\infty

0 a v

+\infty

1, je skutečná distribuční funkce normálního rozdělení. Šedé křížky reprezentují pozorování v určitém výběrovém souboru z tohoto rozdělení, a konstantní části modré schodovité funkce (kam v každé konstantní části patří levý krajní bod, a pravý krajní bod ne) tvoří empirickou distribuční funkci tohoto vzorku. (Klikněte zde pro načtení nového grafu.)

Empirická distribuční funkce (obvykle označovaná eCDF podle anglického empirical Cumulative Distribution Function) je ve statistice distribuční funkce vytvořená na základě empirické míry určené hodnotami určitého znaku z výběrového souboru.^[1] Tato distribuční funkce je schodovitá funkce tvořená skoky velikosti 1/n v každém z n datových bodů. Její hodnota v každém bodě je zlomek, jehož čitatelem je počet pozorování, v nichž je měřená proměnná menší nebo rovna zadané hodnotě, a jmenovatelem je rozsah souboru, N.

Empirická distribuční funkce je odhadem distribuční funkce, která generuje datové body. Podle Glivenkovy–Cantelliho věty konverguje k tomuto podkladovému rozdělení s pravděpodobností 1. Rychlost konvergence empirické distribuční funkce k podkladové distribuční funkci popisují různé matematické věty.

Definice

Nechť (X₁, …, X_n) jsou nezávislé stejně rozdělené náhodné veličiny reálné náhodné proměnné se stejnou distribuční funkcí F(t). Empirická distribuční funkce je pak definována vzorcem^[2]^[3]

{\widehat {F}}_{n}(t)={\frac {n_{t}}{n}}={\frac {1}{n}}\sum _{i=1}^{n}\chi _{X_{i}\leq t},

kde $n_{t}$ je počet prvků, které mají hodnotu zvoleného znaku menší nebo rovnou $t$ , $\chi _{A}$ je charakteristická funkce události A. Pro pevné t je indikátor $\chi _{X_{i}\leq t}$ náhodná proměnná s Bernoulliho rozdělením s parametrem p = F(t); tedy $n{\widehat {F}}_{n}(t)$ je binomická náhodná proměnná se střední hodnotou nF(t) a rozptylem nF(t)(1 − F(t)). Z toho plyne, že ${\widehat {F}}_{n}(t)$ je nevychýlený odhad funkce F(t).

Někteří autoři používají v čitateli zlomku hodnotu $n+1$ :^[4]^[5]

{\widehat {F}}_{n}(t)={\frac {1}{n+1}}\sum _{i=1}^{n}\chi _{X_{i}\leq t}

Střední hodnota

Střední hodnota empirického rozdělení je nestranný odhad střední hodnoty rozdělení populace

$E_{n}(X)={\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}\right)$

která se častěji označuje ${\bar {x}}.$

Rozptyl

Rozptyl empirického rozdělení znásobený ${\tfrac {n}{n-1}}$ je nestranný odhad rozptylu rozdělení populace

${\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[(X-{\bar {x}})^{2}\right]\\[4pt]&={\frac {1}{n}}\left(\sum _{i=1}^{n}{(x_{i}-{\bar {x}})^{2}}\right)\end{aligned}}$

Střední kvadratická chyba

Střední kvadratická chyba empirického rozdělení je

${\begin{aligned}\operatorname {MSE} &={\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y_{i}}})^{2}\\[4pt]&=\operatorname {Var} _{\hat {\theta }}({\hat {\theta }})+\operatorname {Bias} ({\hat {\theta }},\theta )^{2}\end{aligned}}$

kde ${\hat {\theta }}$ je odhad a $\theta$ neznámý parametr

Kvantily

Pokud $nq$ není celé číslo, pak $q$ -tý kvantil je jednoznačný a jen roven $x_{(\lceil {nq}\rceil )}$

kde $\lceil {a}\rceil$ je horní celá část čísla $a$ (nejmenší celé číslo větší nebo rovné $a$ ).

Pokud $nq$ je celé číslo, pak $q$ -tý kvantil není jednoznačný a jeho hodnota může být jakékoli reálné číslo $x$ vyhovující nerovnosti

$x_{({nq})}<x<x_{({nq+1})}$

Empirický medián

Pokud $n$ je liché, pak empirický medián je číslo

${\tilde {x}}=x_{(\lceil {n/2}\rceil )};$

pokud $n$ je sudé, pak empirický medián je číslo

${\tilde {x}}={\frac {x_{n/2}+x_{n/2+1}}{2}}$

Asymptotické vlastnosti

Protože poměr (n + 1)/n se pro n jdoucí k nekonečnu blíží k 1, asymptotické vlastnosti z obou výše uvedených definic jsou stejné.

Podle zákona velkých čísel odhad $\scriptstyle {\widehat {F}}_{n}(t)$ konverguje k F(t) pro n → ∞ skoro jistě pro každou hodnotu t:^[2]

{\widehat {F}}_{n}(t)\ \xrightarrow {\text{s.j.}} \ F(t);

Odhad $\scriptstyle {\widehat {F}}_{n}(t)$ je tedy konzistentní. Tento výraz vyjadřuje bodovou konvergenci empirické distribuční funkce ke skutečné distribuční funkci. Silnější tvrzení poskytuje Glivenkova–Cantelliho věta, která říká, že konvergence je stejnoměrná přes t:^[6]

\|{\widehat {F}}_{n}-F\|_{\infty }\equiv \sup _{t\in \mathbb {R} }{\big |}{\widehat {F}}_{n}(t)-F(t){\big |}\ \xrightarrow {\text{s.j.}} \ 0.

Suprémová norma v tomto výrazu se nazývá Kolmogorovova–Smirnovova statistika pro testování, jak dobře empirické rozdělení $\scriptstyle {\widehat {F}}_{n}(t)$ vyhovuje předpokládané skutečné distribuční funkci F. Mohou být použity i jiné normy, například L²-norma, která dává Cramérovu–von Misesovu statistiku.

Asymptotická rozdělení lze dále charakterizovat několika různými způsoby:

Centrální limitní věta, říká, že bodově má $\scriptstyle {\widehat {F}}_{n}(t)$ asymptoticky normální rozdělení se standardní ${\sqrt {n}}$ rychlostí konvergence:^[2]

{\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ {\xrightarrow {d}}\ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.

Tento výsledek rozšiřuje Donskerova věta, která říká, že pokud empirický proces $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ považujeme za třídu funkcí indexovaných reálným číslem $\scriptstyle t\in \mathbb {R}$ , konverguje v rozdělení ve Skorochodově prostoru $\scriptstyle D\langle -\infty ,+\infty \rangle$ ke gaussovskému procesu se střední hodnotou nula $\scriptstyle G_{F}=B\circ F$ , kde B je standardní Brownův můstek.^[6] Kovarianční struktura tohoto gaussovského procesu je

\operatorname {E} \langle \,G_{F}(t_{1})G_{F}(t_{2})\,\rangle =F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2}).

Rovnoměrnou konvergenci v Donskerově větě lze kvantifikovat výsledkem známým jako maďarské vnoření:^[7]

\limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}{\big \|}{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}{\big \|}_{\infty }<\infty ,\quad {\text{s.j.}}

Rychlost konvergence výrazu $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ lze také kvantifikovat asymptotickým chováním suprémové normy tohoto výrazu. V této oblasti existují další výsledky, například Dvoretzkého–Kieferova–Wolfowitzova nerovnost poskytuje meze tail probabilities of $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$ :^[7]

\Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}.

Kolmogorov ukázal, že pokud je distribuční funkce F spojitá, pak výraz $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$ konverguje v rozdělení k $\scriptstyle \|B\|_{\infty }$ , který má Kolmogorovovo–Smirnovovo rozdělení, které nezávisí na tvaru funkce F.

Ze zákona opakovaného logaritmu plyne další výsledek^[7]

\limsup _{n\to \infty }{\frac {{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }}{\sqrt {2\ln \ln n}}}\leq {\frac {1}{2}},\quad {\text{s.j.}}

\liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\|{\widehat {F}}_{n}-F\|_{\infty }={\frac {\pi }{2}},\quad {\text{s.j.}}

Intervaly spolehlivosti

Podle Dvoretzkého–Kieferovy–Wolfowitzovy nerovnosti lze interval, který obsahuje skutečnou distribuční funkci $F(x)$ s pravděpodobností $1-\alpha$ , zapsat

F_{n}(x)-\varepsilon \leq F(x)\leq F_{n}(x)+\varepsilon \;{\text{ kde }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.

Podle výše uvedených mezí můžeme graficky znázornit empirickou distribuční funkci, distribuční funkci a intervaly spolehlivosti pro různé distribuce pomocí libovolné statistické implementace. Následuje syntax z Statsmodel^{[nedostupný zdroj]} pro grafické znázornění empirického rozdělení.

Statistické implementace

K softwarovým implementacím empirické distribuční funkce patří:

V programovacím jazyce R lze počítat empirické distribuční funkce, k dispozici je několik metod pro grafické znázornění a tisk a výpočty empirických distribučních funkcí.
V Mathworks lze použít vykreslení grafu empirické distribuční funkce (cdf)
jmp ze SAS obsahuje CDF plot, který vytváří graf empirické distribuční funkce
Minitab, vytváří empirické distribuční funkce
Mathwave Archivováno 29. 7. 2020 na Wayback Machine. umožňuje napasovat rozdělení pravděpodobnosti na data
Dataplot, umožňuje vykreslit graf empirické distribuční funkce
Scipy Archivováno 24. 10. 2021 na Wayback Machine., pomocí scipy.stats umožňuje vykreslit graf rozdělení
Statsmodels, umožňuje použití statsmodels.distributions.empirical_distribution.ECDF
Matplotlib, umožňuje použití histogramů pro vytvoření grafu kumulativního rozdělení
Seaborn obsahuje funkci seaborn.ecdfplot
Plotly, lze použít funkci plotly.express.ecdf
Excel umožňuje vykreslit graf empirické distribuční funkce

Odkazy

Reference

V tomto článku byl použit překlad textu z článku Empirical distribution function na anglické Wikipedii.

↑ A modern introduction to probability and statistics: understanding why and how. London: Springer, 2005. Dostupné online. ISBN 978-1-85233-896-1. OCLC 262680588 S. 219.
↑ ^a ^b ^c van der Vaart 1998, s. 265.
↑ PlanetMath. planetmath.org [online]. [cit. 2022-04-07]. Dostupné v archivu pořízeném z originálu dne 2021-02-13.
↑ Coles 2001, s. 36, Definition 2.4.
↑ Madsen 2006, s. 148-149.
↑ ^a ^b van der Vaart, s. 266.
↑ ^a ^b ^c van der Vaart 1998, s. 268.

Literatura

COLES, S., 2001. An Introduction to Statistical Modeling of Extreme Values. [s.l.]: Springer. ISBN 978-1-4471-3675-0.
MADSEN, H. O.; KRENK, S.; LIND, S. C., 2006. Methods of Structural Safety. [s.l.]: Dover Publications. ISBN 0486445976.
SHORACK, G.R.; WELLNER, J.A., 1986. Empirical Processes with Applications to Statistics. New York: Wiley. Dostupné online. ISBN 0-471-86725-X.
VAN DER VAART, A.W., 1998. Asymptotic statistics. [s.l.]: Cambridge University Press. Dostupné online. ISBN 0-521-78450-6.