Empirická distribuční funkce

Zelená křivka, která se asymptoticky blíží v '"`UNIQ--postMath-00000001-QINU`"' 0 a v '"`UNIQ--postMath-00000002-QINU`"' 1, je skutečná distribuční funkce normálního rozdělení. Šedé křížky reprezentují pozorování v určitém výběrovém souboru z tohoto rozdělení, a konstantní části modré schodovité funkce (kam v každé konstantní části patří levý krajní bod, a pravý krajní bod ne) tvoří empirickou distribuční funkci tohoto vzorku. (Klikněte zde pro načtení nového grafu.)
Zelená křivka, která se asymptoticky blíží v {\displaystyle -\infty } 0 a v + {\displaystyle +\infty } 1, je skutečná distribuční funkce normálního rozdělení. Šedé křížky reprezentují pozorování v určitém výběrovém souboru z tohoto rozdělení, a konstantní části modré schodovité funkce (kam v každé konstantní části patří levý krajní bod, a pravý krajní bod ne) tvoří empirickou distribuční funkci tohoto vzorku. (Klikněte zde pro načtení nového grafu.)

Empirická distribuční funkce (obvykle označovaná eCDF podle anglického empirical Cumulative Distribution Function) je ve statistice distribuční funkce vytvořená na základě empirické míry určené hodnotami určitého znaku z výběrového souboru.[1] Tato distribuční funkce je schodovitá funkce tvořená skoky velikosti 1/n v každém z n datových bodů. Její hodnota v každém bodě je zlomek, jehož čitatelem je počet pozorování, v nichž je měřená proměnná menší nebo rovna zadané hodnotě, a jmenovatelem je rozsah souboru, N.

Empirická distribuční funkce je odhadem distribuční funkce, která generuje datové body. Podle Glivenkovy–Cantelliho věty konverguje k tomuto podkladovému rozdělení s pravděpodobností 1. Rychlost konvergence empirické distribuční funkce k podkladové distribuční funkci popisují různé matematické věty.

Definice

Nechť (X1, …, Xn) jsou nezávislé stejně rozdělené náhodné veličiny reálné náhodné proměnné se stejnou distribuční funkcí F(t). Empirická distribuční funkce je pak definována vzorcem[2][3]

F ^ n ( t ) = n t n = 1 n i = 1 n χ X i t , {\displaystyle {\widehat {F}}_{n}(t)={\frac {n_{t}}{n}}={\frac {1}{n}}\sum _{i=1}^{n}\chi _{X_{i}\leq t},}

kde n t {\displaystyle n_{t}} je počet prvků, které mají hodnotu zvoleného znaku menší nebo rovnou t {\displaystyle t} , χ A {\displaystyle \chi _{A}} je charakteristická funkce události A. Pro pevné t je indikátor χ X i t {\displaystyle \chi _{X_{i}\leq t}} náhodná proměnná s Bernoulliho rozdělením s parametrem p = F(t); tedy n F ^ n ( t ) {\displaystyle n{\widehat {F}}_{n}(t)} je binomická náhodná proměnná se střední hodnotou nF(t) a rozptylem nF(t)(1 − F(t)). Z toho plyne, že F ^ n ( t ) {\displaystyle {\widehat {F}}_{n}(t)} je nevychýlený odhad funkce F(t).

Někteří autoři používají v čitateli zlomku hodnotu n + 1 {\displaystyle n+1} :[4][5]

F ^ n ( t ) = 1 n + 1 i = 1 n χ X i t {\displaystyle {\widehat {F}}_{n}(t)={\frac {1}{n+1}}\sum _{i=1}^{n}\chi _{X_{i}\leq t}}

Střední hodnota

Střední hodnota empirického rozdělení je nestranný odhad střední hodnoty rozdělení populace

E n ( X ) = 1 n ( i = 1 n x i ) {\displaystyle E_{n}(X)={\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}\right)}

která se častěji označuje x ¯ . {\displaystyle {\bar {x}}.}

Rozptyl

Rozptyl empirického rozdělení znásobený n n 1 {\displaystyle {\tfrac {n}{n-1}}} je nestranný odhad rozptylu rozdělení populace

Var ( X ) = E [ ( X E [ X ] ) 2 ] = E [ ( X x ¯ ) 2 ] = 1 n ( i = 1 n ( x i x ¯ ) 2 ) {\displaystyle {\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[(X-{\bar {x}})^{2}\right]\\[4pt]&={\frac {1}{n}}\left(\sum _{i=1}^{n}{(x_{i}-{\bar {x}})^{2}}\right)\end{aligned}}}

Střední kvadratická chyba

Střední kvadratická chyba empirického rozdělení je

MSE = 1 n i = 1 n ( Y i Y i ^ ) 2 = Var θ ^ ( θ ^ ) + Bias ( θ ^ , θ ) 2 {\displaystyle {\begin{aligned}\operatorname {MSE} &={\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y_{i}}})^{2}\\[4pt]&=\operatorname {Var} _{\hat {\theta }}({\hat {\theta }})+\operatorname {Bias} ({\hat {\theta }},\theta )^{2}\end{aligned}}}

kde θ ^ {\displaystyle {\hat {\theta }}} je odhad a θ {\displaystyle \theta } neznámý parametr

Kvantily

Pokud n q {\displaystyle nq} není celé číslo, pak q {\displaystyle q} -tý kvantil je jednoznačný a jen roven x ( n q ) {\displaystyle x_{(\lceil {nq}\rceil )}}

kde a {\displaystyle \lceil {a}\rceil } je horní celá část čísla a {\displaystyle a} (nejmenší celé číslo větší nebo rovné a {\displaystyle a} ).

Pokud n q {\displaystyle nq} je celé číslo, pak q {\displaystyle q} -tý kvantil není jednoznačný a jeho hodnota může být jakékoli reálné číslo x {\displaystyle x} vyhovující nerovnosti

x ( n q ) < x < x ( n q + 1 ) {\displaystyle x_{({nq})}<x<x_{({nq+1})}}

Empirický medián

Pokud n {\displaystyle n} je liché, pak empirický medián je číslo

x ~ = x ( n / 2 ) ; {\displaystyle {\tilde {x}}=x_{(\lceil {n/2}\rceil )};}

pokud n {\displaystyle n} je sudé, pak empirický medián je číslo

x ~ = x n / 2 + x n / 2 + 1 2 {\displaystyle {\tilde {x}}={\frac {x_{n/2}+x_{n/2+1}}{2}}}

Asymptotické vlastnosti

Protože poměr (n + 1)/n se pro n jdoucí k nekonečnu blíží k 1, asymptotické vlastnosti z obou výše uvedených definic jsou stejné.

Podle zákona velkých čísel odhad F ^ n ( t ) {\displaystyle \scriptstyle {\widehat {F}}_{n}(t)} konverguje k F(t) pro n → ∞ skoro jistě pro každou hodnotu t:[2]

F ^ n ( t )   s.j.   F ( t ) ; {\displaystyle {\widehat {F}}_{n}(t)\ \xrightarrow {\text{s.j.}} \ F(t);}

Odhad F ^ n ( t ) {\displaystyle \scriptstyle {\widehat {F}}_{n}(t)} je tedy konzistentní. Tento výraz vyjadřuje bodovou konvergenci empirické distribuční funkce ke skutečné distribuční funkci. Silnější tvrzení poskytuje Glivenkova–Cantelliho věta, která říká, že konvergence je stejnoměrná přes t:[6]

F ^ n F sup t R | F ^ n ( t ) F ( t ) |   s.j.   0. {\displaystyle \|{\widehat {F}}_{n}-F\|_{\infty }\equiv \sup _{t\in \mathbb {R} }{\big |}{\widehat {F}}_{n}(t)-F(t){\big |}\ \xrightarrow {\text{s.j.}} \ 0.}

Suprémová norma v tomto výrazu se nazývá Kolmogorovova–Smirnovova statistika pro testování, jak dobře empirické rozdělení F ^ n ( t ) {\displaystyle \scriptstyle {\widehat {F}}_{n}(t)} vyhovuje předpokládané skutečné distribuční funkci F. Mohou být použity i jiné normy, například L2-norma, která dává Cramérovu–von Misesovu statistiku.

Asymptotická rozdělení lze dále charakterizovat několika různými způsoby:

Centrální limitní věta, říká, že bodově F ^ n ( t ) {\displaystyle \scriptstyle {\widehat {F}}_{n}(t)} asymptoticky normální rozdělení se standardní n {\displaystyle {\sqrt {n}}} rychlostí konvergence:[2]

n ( F ^ n ( t ) F ( t ) )     d     N ( 0 , F ( t ) ( 1 F ( t ) ) ) . {\displaystyle {\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ {\xrightarrow {d}}\ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.}

Tento výsledek rozšiřuje Donskerova věta, která říká, že pokud empirický proces n ( F ^ n F ) {\displaystyle \scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)} považujeme za třídu funkcí indexovaných reálným číslem t R {\displaystyle \scriptstyle t\in \mathbb {R} } , konverguje v rozdělení ve Skorochodově prostoru D , + {\displaystyle \scriptstyle D\langle -\infty ,+\infty \rangle } ke gaussovskému procesu se střední hodnotou nula G F = B F {\displaystyle \scriptstyle G_{F}=B\circ F} , kde B je standardní Brownův můstek.[6] Kovarianční struktura tohoto gaussovského procesu je

E G F ( t 1 ) G F ( t 2 ) = F ( t 1 t 2 ) F ( t 1 ) F ( t 2 ) . {\displaystyle \operatorname {E} \langle \,G_{F}(t_{1})G_{F}(t_{2})\,\rangle =F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2}).}

Rovnoměrnou konvergenci v Donskerově větě lze kvantifikovat výsledkem známým jako maďarské vnoření:[7]

lim sup n n ln 2 n n ( F ^ n F ) G F , n < , s.j. {\displaystyle \limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}{\big \|}{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}{\big \|}_{\infty }<\infty ,\quad {\text{s.j.}}}

Rychlost konvergence výrazu n ( F ^ n F ) {\displaystyle \scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)} lze také kvantifikovat asymptotickým chováním suprémové normy tohoto výrazu. V této oblasti existují další výsledky, například Dvoretzkého–Kieferova–Wolfowitzova nerovnost poskytuje meze tail probabilities of n F ^ n F {\displaystyle \scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }} :[7]

Pr ( n F ^ n F > z ) 2 e 2 z 2 . {\displaystyle \Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}.}

Kolmogorov ukázal, že pokud je distribuční funkce F spojitá, pak výraz n F ^ n F {\displaystyle \scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }} konverguje v rozdělení k B {\displaystyle \scriptstyle \|B\|_{\infty }} , který má Kolmogorovovo–Smirnovovo rozdělení, které nezávisí na tvaru funkce F.

Ze zákona opakovaného logaritmu plyne další výsledek[7]

lim sup n n F ^ n F 2 ln ln n 1 2 , s.j. {\displaystyle \limsup _{n\to \infty }{\frac {{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }}{\sqrt {2\ln \ln n}}}\leq {\frac {1}{2}},\quad {\text{s.j.}}}

a

lim inf n 2 n ln ln n F ^ n F = π 2 , s.j. {\displaystyle \liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\|{\widehat {F}}_{n}-F\|_{\infty }={\frac {\pi }{2}},\quad {\text{s.j.}}}

Intervaly spolehlivosti

Empirická distribuční funkce, distribuční funkce a intervaly spolehlivosti grafická znázornění pro různé velikosti vzorku normálního rozdělení

Podle Dvoretzkého–Kieferovy–Wolfowitzovy nerovnosti lze interval, který obsahuje skutečnou distribuční funkci F ( x ) {\displaystyle F(x)} s pravděpodobností 1 α {\displaystyle 1-\alpha } , zapsat

Grafické znázornění empirické distribuční funkce, distribuční funkce a intervalu spolehlivosti pro různé velikosti vzorku Cauchyho rozdělení
F n ( x ) ε F ( x ) F n ( x ) + ε  kde  ε = ln 2 α 2 n . {\displaystyle F_{n}(x)-\varepsilon \leq F(x)\leq F_{n}(x)+\varepsilon \;{\text{ kde }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.}

Podle výše uvedených mezí můžeme graficky znázornit empirickou distribuční funkci, distribuční funkci a intervaly spolehlivosti pro různé distribuce pomocí libovolné statistické implementace. Následuje syntax z Statsmodel[nedostupný zdroj] pro grafické znázornění empirického rozdělení.

Grafické znázornění empirické distribuční funkce, distribuční funkce a intervalu spolehlivosti pro vzorky různé velikosti trojúhelníkového rozdělení

Statistické implementace

K softwarovým implementacím empirické distribuční funkce patří:

  • V programovacím jazyce R lze počítat empirické distribuční funkce, k dispozici je několik metod pro grafické znázornění a tisk a výpočty empirických distribučních funkcí.
  • V Mathworks lze použít vykreslení grafu empirické distribuční funkce (cdf)
  • jmp ze SAS obsahuje CDF plot, který vytváří graf empirické distribuční funkce
  • Minitab, vytváří empirické distribuční funkce
  • Mathwave Archivováno 29. 7. 2020 na Wayback Machine. umožňuje napasovat rozdělení pravděpodobnosti na data
  • Dataplot, umožňuje vykreslit graf empirické distribuční funkce
  • Scipy Archivováno 24. 10. 2021 na Wayback Machine., pomocí scipy.stats umožňuje vykreslit graf rozdělení
  • Statsmodels, umožňuje použití statsmodels.distributions.empirical_distribution.ECDF
  • Matplotlib, umožňuje použití histogramů pro vytvoření grafu kumulativního rozdělení
  • Seaborn obsahuje funkci seaborn.ecdfplot
  • Plotly, lze použít funkci plotly.express.ecdf
  • Excel umožňuje vykreslit graf empirické distribuční funkce

Odkazy

Reference

V tomto článku byl použit překlad textu z článku Empirical distribution function na anglické Wikipedii.

  1. A modern introduction to probability and statistics: understanding why and how. London: Springer, 2005. Dostupné online. ISBN 978-1-85233-896-1. OCLC 262680588 S. 219. 
  2. a b c van der Vaart 1998, s. 265.
  3. PlanetMath. planetmath.org [online]. [cit. 2022-04-07]. Dostupné v archivu pořízeném z originálu dne 2021-02-13. 
  4. Coles 2001, s. 36, Definition 2.4.
  5. Madsen 2006, s. 148-149.
  6. a b van der Vaart, s. 266.
  7. a b c van der Vaart 1998, s. 268.

Literatura

  • COLES, S., 2001. An Introduction to Statistical Modeling of Extreme Values. [s.l.]: Springer. ISBN 978-1-4471-3675-0. 
  • MADSEN, H. O.; KRENK, S.; LIND, S. C., 2006. Methods of Structural Safety. [s.l.]: Dover Publications. ISBN 0486445976. 
  • SHORACK, G.R.; WELLNER, J.A., 1986. Empirical Processes with Applications to Statistics. New York: Wiley. Dostupné online. ISBN 0-471-86725-X. 
  • VAN DER VAART, A.W., 1998. Asymptotic statistics. [s.l.]: Cambridge University Press. Dostupné online. ISBN 0-521-78450-6. 

Související články

  • Càdlàg funkce
  • Count data
  • Fitting rozdělení
  • Dvoretzkého–Kieferova–Wolfowitzova nerovnost
  • Empirická pravděpodobnost
  • Empirické zpracování
  • Kvantil – odhad kvantilů ze vzorku
  • Četnost
  • Kaplanův–Meierův odhad pro cenzorované procesy
  • Funkce přežití
  • Q-Q graf
  • Znak (statistika)

Externí odkazy

  • Logo Wikimedia Commons Obrázky, zvuky či videa k tématu Empirická distribuční funkce na Wikimedia Commons