viernes, 20 de julio de 2012

PRUEBA DE BONDAD DE AJUSTE.
           

Una hipótesis estadística se definió como una afirmación o conjetura acerca de la distribución f(x,q) de una o más variables aleatorias. Igualmente se planteó que la distribución podía tener uno o más parámetros desconocidos, que denotamos por q y que la hipótesis se relaciona con este parámetro o conjunto de parámetros En otros casos, se desconoce por completo la forma de la distribución y la hipótesis entonces se relaciona con una distribución específica f(x,q) que podamos asignarle al conjunto de datos de la muestra. El primer problema, relacionado con los parámetros de una distribución conocida o supuesta es el problema que hemos analizado en los párrafos anteriores. Ahora examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución. Las pruebas estadísticas que tratan este problema reciben el nombre general de “Pruebas de Bondad de Ajuste”.
Se analizarán dos pruebas básicas que pueden aplicarse: La prueba Chi - Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que en estadística se denominan pruebas de “Bondad de Ajuste” y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:
H0: f(x,q) = f0(x,q)
H1: f(x,q) ¹ f0(x,q)
donde f0(x,q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si se desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis nula, el conjunto de parámetros definidos por q puede ser conocido o desconocido. En caso de que los parámetros sean desconocidos, es necesario estimarlos mediante alguno de los métodos de estimación analizados con anterioridad.
Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribución que siguen los tiempos de falla de unos componentes, podríamos pensar en una distribución exponencial, o una distribución gama o una distribución Weibull, pero en principio no consideraríamos una distribución normal. Si estamos analizando los caudales de un río en un determinado sitio, podríamos pensar en una distribución logarítmica normal, pero no en una distribución normal.

PRUEBA DE CHI-CUADRADA.

A lo largo de este curso nos ocupamos de la prueba de hipótesis estadísticas acerca de parámetros de una población como ,  y P. Ahora se considera una prueba para determinar si una población tiene una distribución teórica específica. La prueba se basa en qué tan buen ajuste se tiene entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de la distribución hipotética.
La formula que se utilizará para calcular el valor de chi-cuadrada es igual a la de la sección anterior, con el mismo concepto de grados de libertad.
Ejemplo:
  1. Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el número de caras de cada serie. El número de series en los que se presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.
Número de caras
Número de series
(frecuencia observada)
0
38
1
144
2
342
3
287
4
164
5
25
Total
1000
    Ajustar una distribución binomial a los datos con un  = 0.05.
    Solución:
    H0; Los datos se ajustan a una distribución binomial.
    H1; Los datos no se ajustan a una distribución binomial.
    Para obtener los valores esperados se tiene que utilizar la formula de la distribución binomial: , donde n en este ejercicio vale 5, p y q son las probabilidades respectivas de cara y sello en un solo lanzamiento de la moneda. Para calcular el valor de p, se sabe que =np en una distribución binomial, por lo que  = 5p.
    Para la distribución de frecuencias observada, la media del número de caras es:
    Por lo tanto . Así pues, la distribución binomial ajustada viene dada por p(x) = .
    Al seguir esta fórmula se calcula la probabilidad de obtener caras, según el valor de la variable aleatoria. La probabilidad multiplicada por 1000 nos dará el valor esperado. Se resumen los resultados en la tabla siguiente:
Número de caras (x)
P(x caras)
Frecuencia esperada
Frecuencia observada
0
0.0332
33.2
38
1
0.1619
161.9
144
2
0.3162
316.2
342
3
0.3087
308.7
287
4
0.1507
150.7
164
5
0.0294
29.4
25
    Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar la media de la población para poder obtener el valor de p y así poder calcular los valores esperados.
    Grados de libertad: k-1-m = 6-1-1 = 4
    Regla de decisión:
    Si X2R 9.49 no se rechaza Ho.
    Si X2R >9.49 se rechaza Ho.
    Cálculos:
    Justificación y decisión:
    Como el 7.54 no es mayor a 9.49, no se rechaza H0 y se concluye con un 
     = 0.05 que el ajuste de los datos a una distribución binomial es bueno.
  1. Se propone que el número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson. Se reúne una muestra aleatoria de 60 tarjetas de circuito impreso y se observa el número de defectos. Los resultados obtenidos son los siguientes:
Número de defectos
Frecuencia observada
0
32
1
15
2
9
3 ó más
4
    ¿Muestran estos datos suficiente evidencia para decir que provienen de una distribución Poisson?. Haga la prueba de la bondad del ajuste con un  = 0.05.
    Solución:
    H0; La forma de la distribución de los defectos es Poisson.
    H1; La forma de la distribución de los defectos no es Poisson.
    La media de la distribución Poisson propuesta en este ejemplo es desconocida y debe estimarse a partir de los datos contenidos en la muestra.
    A partir de la distribución Poisson con parámetro 0.75, pueden calcularse las probabilidades asociadas con el valor de x. Esto es la fórmula de la Poisson es:
    Con esta fórmula se calculan las probabilidades, mismas que se multiplican por 60 para obtener los valores esperados.
Número de defectos
Probabilidad
Frecuencia esperada
Frecuencia observada
0
0.472
28.32
32
1
0.354
21.24
15
2
0.133
7.98
9
3 ó más
0.041
2.46
4
    Puesto que la frecuencia esperada en la última celda es menor que 5, se combinan las dos últimas celdas.
    Número de defectos
    Frecuencia esperada
    Frecuencia observada
    0
    28.32
    32
    1
    21.24
    15
    2 ó más
    10.44
    13
    Los grados de libertad serían 3-1-1=1, debido a que la media de la distribución Poisson fue estimada a partir de los datos.
    Regla de decisión:
    Si X2R 3.84 no se rechaza Ho.
    Si X2R >3.84 se rechaza Ho.
    Cálculos:
    Justificación y decisión:
    Como el 2.94 no es mayor a 3.84, no se rechaza H0 y se concluye con un 
     = 0.05 que la distribución de defectos en las tarjetas de circuito impreso es Poisson.
  1. Pruebe la hipótesis de que la distribución de frecuencia de las duraciones de baterías dadas en la siguiente tabla, se puede aproximar mediante una distribución normal con media  = 3.5 y desviación estándar =0.7. Utilice un 
= 0.05.
Límites de clase
Frecuencias observadas
1.45 – 1.95
2
1.95 – 2.45
1
2.45 – 2.95
4
2.95 – 3.45
15
3.45 – 3.95
10
3.95 – 4.45
5
4.45 – 4.95
3
Solución:
Se procede a elaborar el histograma, para visualizar los datos:
Como se puede observar el histograma tiene una forma que aparenta ser normal, se probará esta hipótesis.
H0; Los datos provienen de una distribución normal.
H1; Los datos no provienen de una distribución normal.
En este ejercicio en particular se cuenta con la media y desviación estándar de la población, por lo que no se tiene que estimar. En caso de que no se tuviera, se estimarían a partir de los datos agrupados con las fórmulas que se vieron en la Unidad III del curso de probabilidad y estadística, tomando en cuenta que para los grados de libertad el valor de m sería 2, ya que se estimaría la media y la desviación estándar.
Se procederá a calcular los valores de z para encontrar las probabilidades en la tabla. Recordando que , se sustituye el valor de x por los límites de clase comenzando con el límite de 1.95
Límite real
P(x)
1.95
-2.21
P(x1.95) = 0.01355
2.45
-1.50
P(x2.45) = 0.06680
2.95
-0.79
P(x2.95) = 0.21476
3.45
-0.07
P(x3.45) = 0.47210
3.95
0.64
P(x3.95) = 0.26109
4.45
1.36
P(x4.45) = 0.08691
La razón por la cual se comienza con el límite de 1.95 y se termina con el límite de 4.45, es porque la suma de todas las probabilidades debe ser 1, bajo la curva normal.
A continuación se muestra la curva normal con sus respectivas probabilidades, según los limites reales. Las probabilidades que no se muestran en la tabla anterior y están en la curva se calcularon por diferencias.
P(1.95 x 2.45) = 0.0668-0.013553 = 0.053254
P(2.45 x 2.95) = 0.21476-0.0668 = 0.147953
P(2.95 x 3.45) = 0.4721-0.21476 = 0.25734
P(3.45 x 3.50) = 0.50-0.4721 = 0.0279
P(3.50 x 3.95) = 0.50-0.26109= 0.23891
P(3.95 x 4.45) = 0.26109-0.086915 = 0.17417
Con estas probabilidades se calcularán los valores esperados, multiplicando cada probabilidad por 40.
Límites de clase
Frecuencias observadas
Probabilidad
Frecuencia esperada
1.45 – 1.95
2
0.01355
0.54212
1.95 – 2.45
7 1
0.05325
2.13016
2.45 – 2.95
4
0.14795
5.91812
2.95 – 3.45
15
0.25734
10.29360
3.45 – 3.95
10
0.26681
10.67240
3.95 – 4.45
8 5
0.17417
6.96680
4.45 – 4.95
3
0.08691
3.47660
Grados de libertad: k-1-m = 4-1-0 = 3
Regla de decisión:
Si X2R 7.815 no se rechaza Ho.
Si X2R >7.815 se rechaza Ho.
Cálculos:
Justificación y decisión:
Como el 3.06 no es mayor de 7.815, no se rechaza H0 y se concluye con un 
 = 0.05 que el ajuste de los datos a una distribución normal es bueno.
    PRUEBA DE KOLMOGOROV - SMIRNOFF.
En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no paramétrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidadentre sí.
En el caso de que queramos verificar la normalidad de una distribución, la prueba de Lilliefors conlleva algunas mejoras con respecto a la de Kolmogórov-Smirnov; y, en general, el test de Shapiro–Wilk o la prueba de Anderson-Darling son alternativas más potentes.
Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores cercanos a la mediana que a los extremos de la distribución. La prueba de Anderson-Darlingproporciona igual sensibilidad con valores extremos.

Estadístico

La distribución de los datos Fn para n observaciones yi se define como
F_n(x)={1 \over n}\sum_{i=1}^n \left\{\begin{matrix}1 & \mathrm{si}\ y_i\leq x, \\ 0 & \mathrm{alternativa}.\end{matrix}\right.
Para dos colas el estadístico viene dado por
D_n^{+}=\max(F_n(x)-F(x))\,
D_n^{-}=\max(F(x)-F_n(x))\,
donde F(x) es la distribución presentada como hipótesis.