Estadística Inferencial: mayo 2009

Estadística Inferencial

La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones en áreas de negocios e instituciones gubernamentales.

La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar.

La estadística inferencial, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANOVA, series de tiempo y minería de datos.

Tipo de variables

Variable Cualitativa

Cuando la variable estudiada es no numérica, esta es llamada variable cualitativa también llamada atributo (p.ej. lugar de nacimiento, religión, color de ojos, etc.)

Variable Cuantitativa

Cuando la variable estudiada puede expresarse en forma numérica, esta es llamada variable cuantitativa (p.ej. el saldo de una cuenta bancaria, la duración de una batería, la velocidad de los automóviles en el periférico de la juventud).

Variables Discretas

Las variables cuantitativas pueden ser discretas o continuas. Las variables discretas pueden asumir solo ciertos valores, y hay usualmente huecos entre los valores (número de cuartos en una casa, número de carros en el estacionamiento del claustro, número de estudiantes en la clase de estadísticas).

Variables Continuas

Las variables continuas pueden asumir todos los valores dentro de un rango específico (p.ej. presión del aire en una llanta, el tiempo que se toma en viajar de Chihuahua a Juárez, el peso de los jugadores de fútbol americano de las águilas de la U.A.CH., etc.). Típicamente, las variables continuas resultan de medir algo, y lógicamente dependen de la exactitud del instrumento de medición.

Medidas de tendencia central

Moda (Mo):

Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos, o sea, cual se repite más. Esta puede ser amodal, bimodal, unimodal y multimodal.

Media:

A media aritmética es un promedio estándar que a menudo se denomina "promedio". Se puede calcular diversas tipos de medias como la de datos agrupados y no agrupados.

Datos no agrupados

Datos agrupados

Mediana:

Es un valor único de un conjunto de datos que mide al elemento central en los datos. Este único elemento es el más cercano a la mitad o el más central en el conjunto de números.

Tablas de distribución

Marca de clase:

Valor representativo de cada intervalo. Tomamos como marca de clase el punto medio de cada intervalo y lo calculamos sumando los extremos del intervalo y dividiéndolo entre 2.

Frecuencia de clase:

Es el número de datos que hay en un intervalo de clase.

Frecuencia relativa:

Cociente de la frecuencia absoluta y el número de datos. La suma de todas las frecuencias relativas es igual a uno. La frecuencia relativa multiplicada por 100 nos permite obtener el porcentaje (%) de cada dato de la variable estadística.

Frecuencia acumulada:

Es la suma acumulativa de las frecuencias absolutas de cada uno de los intervalos.

Frecuencia relativa acumulada:

La frecuencia absoluta acumulada dividido por el tamaño de la muestra, y la denotaremos por F_i

Medidas de dispersión

Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media.

Varianza:

Es el resultado de la división de la sumatoria de las distancias entre cada rato y su medida aritmética elevadas al cuadrado, y el número total de datos. Distinguimos dos símbolos para identificar la varianza: S² para datos muestrales, y σ² para datos poblacionales.

Datos agrupados

Datos sueltos de una población

Datos sueltos

de una muestra

Desviación estándar:

La desviación estándar (o desviación típica) es una medida de dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística descriptiva. Es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.

Datos agrupados

Datos sueltos de una población

Datos sueltos de una muestra

martes, 19 de mayo de 2009

Estadística Inferencial

Seguidores

Archivo del blog

Datos personales