sábado, 24 de mayo de 2008

diagrama de cajas

Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos.
En un gráfico que se suministra información sobre la mediana, El cuartil Q1 y Q3, sobre la existencia de atípicos y la simetría de la distribución.

Como dibujarlo
Ordenar los datos y obtener el valor mínimo, el máximo, y los cuartiles Q1, Q2 y Q3.
Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.
Calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.
Considerar como atípicos los puntos localizados fuera del intervalo (Li, Ls).
Dibujar las líneas que van desde cada extremo del rectángulo central hasta el valor más alejado no atípico.
Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).

area bajo la curva normal

DISTRIBUCION NORMAL

La distribución normal es muy importante por lo siguiente:

1. Es la distribución a la que se aproximan la mayoría de los fenómenos físicos, Químicos, Biólogicos
2. Se ha tomado como base en la inferencia estadística paramétrica

3. Otras distribuciones bajo ciertas circunstancias se pueden aproximar a la normal

4. Es la base para definir otras distribuciones de importancia tales como la Chi cuadrada, t de Student y F de Fisher.

CARACTERISTICAS DE LA DISTRIBUCION NORMAL

1. Forma
Es una campana simétrica con respecto a su centro
La curva tiene un solo pico; por tanto, es unimodal.
La media de una población distribuida normalmente cae en el centro de su curva normal.
Debido a la simetría de la distribución normal de probabilidad, la mediana y la moda de la distribución se encuentran también en el centro; en consecuencia, para una curva normal, la media, la mediana y la moda tienen el mismo valor.
Los dos extremos de la distribución normal de probabilidad se extienden indefinidamente y nunca tocan el eje horizontal

2. Parámetros
Está caracterizada por dos parámetros

a).- Parámetro de localización: La media
b).- Parámetro de forma: La varianza


3. Función de densidad

Para determinar las áreas bajo la curva de función de densidad normal se requiere integrar la ecuación anterior, desafortunadamente no existe una solución exacta para la integral, por lo que su evaluación solamente puede obtenerse utilizando métodos de aproximación. Por esta razón, se aprovechó la propiedad de transformación de cualquier curva normal a la NORMAL ESTANDAR utilizando una nueva variable aleatoria Z llamada variable aleatoria normal estándar.

Si X ~ N ( µ, s2 ) entonces X puede transformarse en Z



AREAS BAJO LA CURVA NORMAL

No importa cuáles sean los valores de la para una distribución de probabilidad normal, el área total bajo la curva es 1.00, de manera que podemos pensar en áreas bajo la curva como si fueran probabilidades. Matemáticamente es verdad que:

1.Aproximadamente 68% de todos los valores de una población normalmente distribuida se encuentra dentro de desviación estándar de la media.

2. Aproximadamente 95.5 % de todos los valores de una población normalmente distribuida se encuentra dentro de desviación estándar de la media.

3. Aproximadamente 99.7 % de todos los valores de una población normalmente distribuida se encuentra dentro de desviación estándar de la media.









USO DE LA TABLA DE DISTRIBUCIÓN DE PROBABILIDAD NORMAL ESTÁNDAR

DISTRIBUCIÓN DE PROBABILIDAD NORMAL ESTÁNDAR
Áreas bajo la distribución de probabilidad Normal Estándar
entre la media y valores positivos de Z
m = 0 y s²=1

Observe en esta tabla la localización de la columna identificada con z. El valor de z está derivado de la formula:


X = valor de la variable aleatoria que nos preocupa
media de la distribución de la variable aleatoria
= desviación estándar de la distribución
Z = número de desviaciones estándar que hay desde x a la media de la distribución

Utilizamos Z en lugar del ‘ número de desviaciones estándar’ porque las variables aleatorias normalmente distribuidas tienen muchas unidades diferentes de medición: dólares, pulgadas, partes por millón, kilogramos, segundos. Como vamos a utilizar una tabla, la tabla I, hablamos en términos de unidades estándar (que en realidad significa desviaciones estándar), y denotamos a éstas con el símbolo z.

X
-25 0 25 50 75 100 125
----------------------------------------- Z =
-3 -2 -1 0 1 2 3


La tabla representa las probabilidades o áreas bajo la curva normal calculadas desde la hasta los valores particulares de interés X. Usando la ecuación de Z, esto corresponde a las probabilidades o áreas bajo la curva normal estandarizada desde la media ( = 0) hasta los valores transformados de interés Z.
Sólo se enumeran entradas positivas de Z en la tabla , puesto que para una distribución simétrica de este tipo con una media de cero, el área que va desde la media hasta +Z (es decir, Z desviaciones estándar por encima de la media) debe ser idéntica al área que va desde la media hasta –Z (es decir, Z desviaciones estándar por debajo de la media).
También podemos encontrar la tabla que indica el área bajo la curva normal estándar que corresponde a P(Z < z) para valores de z que van de –3.49 a 3.49.
Al usar la tabla observamos que todos los valores Z deben registrarse con hasta dos lugares decimales. Por tanto, nuestro valor de interés particular Z se registra como +.2. para leer el área de probabilidad bajo la curva desde la media hasta Z = +.20, podemos recorrer hacia abajo la columna Z de la tabla hasta que ubiquemos el valor de interés Z. Así pues, nos detenemos en la fila Z = .2. A continuación, leemos esta fila hasta que intersecamos la columna que contiene el lugar de centésimas del valor Z. Por lo tanto, en la tabla, la probabilidad tabulada para Z = 0.20 corresponde a la intersección de la fila Z = .2 con la columna Z = .00 como se muestra.

viernes, 14 de marzo de 2008

teorema de chebyshev

Teorema De Chebyshev
señala la probabilidad de que variable aleatoria difiera de su media en t veces la desviacion estandar es por lo menos iguala 1/t)
o Teorema de Chebyshev: Para un conjunto cualquiera de observaciones (muestra o población), la proporción mínima de los valores que se encuentran dentro de k desviaciones estándares desde la media es al menos 1 – 1/k2, donde k es una constante mayor que 1.

En probabilidad, la desigualdad de Chebyshev es un resultado estadístico que ofrece una cota inferior a la probabilidad de que el valor de una variable aleatoria con varianza finita esté a una cierta distancia de su esperanza matemática o de su media; equivalentemente, el teorema proporciona una cota superior a la probabilidad de que los valores caigan fuera de esa distancia respecto de la media. El teorema es aplicable incluso en distribuciones que no tienen forma de "curva de campana" y acota la cantidad de datos que están o no "en medio".
Teorema: Sea X una variable aleatoria de media μ y varianza finita σ². Entonces, para todo número real k > 0,
k\sigma)\leq\frac{1}{k^2}." src="http://upload.wikimedia.org/math/a/b/c/abc4ac8eeb75c0db369ab6c6f8be19ec.png">
Sólo los casos con k > 1 proporcionan información útil.
Para ilustrar este resultado, supongamos que los artículos de Wikipedia tienen una extensión media de 1000 caracteres y una desviación típica de 200 caracteres. De la desigualdad de Chebyshev se deduce que al menos el 75% de los artículos tendrán una extensión comprendida entre 600 y 1400 caracteres (k = 2).
Otra consecuencia del teorema es que para cada distribución de media μ y desviación típica finita σ, al menos la mitad de los valores caerán en el intervalo (μ-√2 σ, μ+√2 σ).
Las cotas proporcionadas por la desigualdad de Chebyshev, en general, no se pueden mejorar; es posible construir una variable aleatoria cuyas cotas de Chebyshev sean exactamente iguales a las probabilidades reales. Sin embargo, en general el teorema proporcionará cotas poco precisas.
El teorema puede ser útil a pesar de las cotas imprecisas porque se aplica a una amplia gama de variables que incluye las que están muy alejadas de la distribución normal, y porque las cotas son fáciles de calcular. El teorema se emplea para demostrar la ley débil de los números grandes.
El teorema recibe su nombre del matemático Pafnuty Chebyshev.

COMENTARIO:
yo entendí que el teorema de chebyshev es un resultado estadistico ofrece una asociacion inferior a que de la probabilidad de que el valor de la variable aleatoria con varianza finita este a cierta distancia de la media y que se emplea para demostrar la ley debil de los numeros grandes y que recibe ese nombre por el matematico Pafnuty Chebyshev.

sábado, 8 de marzo de 2008

diagrama de caja

Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos.
En un gráfico que se suministra información sobre la mediana, El cuartil Q1 y Q3, sobre la existencia de atípicos y la simetría de la distribución.

Como dibujaarlo:
Ordenar los datos y obtener el valor mínimo, el máximo, y los cuartiles Q1, Q2 y Q3.
Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.
Calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.
Considerar como atípicos los puntos localizados fuera del intervalo (Li, Ls).
Dibujar las líneas que van desde cada extremo del rectángulo central hasta el valor más alejado no atípico.
Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).

Utilidades
Proporcionan una visión general de la simetría de la distribución de los datos, si la media no está en el centro del rectángulo, la distribución no es simétrica.
Son útiles para ver la presencia de valores atípicos.

CLASIFICACION DE LAS VARIABLES

En un estudio científico, podemos clasificar las variables según la escala de medición o la influencia que asignemos a unas variables sobre otras y por esta razón .
Según la escala de medición:
Variables cualitativas: Son las variables que expresan distintas cualidades, características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser ordinales y nominales. Las variables cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles como sí y no, hombre y mujer o son politómicas cuando pueden adquirir tres o más valores. Dentro de ellas podemos distinguir:
Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave
Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia.
Variables cuantitativas: Son las variables que se expresan mediante cantidades numéricas. Las variables cuas además pueden ser:
Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Un ejemplo es el número de hijos.
Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso o la altura, que solamente limitado por la precisión del aparato medidor, en teoría permiten que siempre existe un valor entre dos cualesquiera.
Según la influencia que asignemos a unas variables sobre otras, podrán ser:
Variables independientes: Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de confusión, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo.
Variables dependientes: Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes.

jueves, 17 de enero de 2008

estadistica

La estadística es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación sumisa, y que han sido recopilado a partir de otros datos numéricos.