sábado, 23 de mayo de 2009

DIAGRAMA DE TALLOS Y HOJAS

Diagrama de

tallo y hojas

image


Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja).

Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) del los valores tallo.

El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.

Es una técnica estadística para representar un conjunto de datos. Cada valor numérico se divide en dos partes. El o los dígitos principales forman el tallo y los dígitos secundarios las hojas. Los tallos están colocados a lo largo del eje vertical, y las hojas de cada observación a lo largo del eje horizontal.

Ejemplo

La siguiente distribución de frecuencia muestra el número de anuncios comerciales pagados por los 45 miembros de Greater Buffalo Automobile Dealer´s Association en 1999. Observemos que 7 de los 45 comerciantes pagaron entre 90 y 99 anuncios (pero menos de 100). Sin embargo, ¿El numero de comerciantes pagados en esta clase se agrupan en alrededor de 90, están dispersos a lo largo de toda clase, o se acumulan alrededor de 99? No podemos saberlo.

            # De anuncios comprados                     Frecuencia

80 a 90 2

90 a 100 7

100 a 110 6

110 a 120 9

120 a 130 8

130 a 140 7

140 a 150 3

150 a 160 3

sumatoria de la frecuencia= 45

Una técnica que se usa para presentar información cuantitativa en forma condensada es el diagrama de tallo y hoja. En el ejemplo anterior no se da la identidad de los valores de la clase de 90 a 100. Para ilustrar la construcción de un diagrama de tallo y hojas usando el número de comerciales comprados, supongamos que las 7 observaciones en la clase de 90 a 100 sean 96, 94, 93, 94, 95, 96, 97. EL valor de tallo es el digito o dígitos principales, en este caso el 9. Las hojas son los dígitos secundarios. EL tallo se coloca a la izquierda de una línea vertical y los valores de las hojas a la derecha.

Los valores de las clases de 90 a 100, aparecerían como sigue:

9 | 6 4 3 4 5 6 7

Por ultimo, ordenamos los valores dentro de cada tallo de menor a mayor. El segundo renglón del diagrama de tallo y hojas aparecería como sigue:

9 | 3 4 4 5 6 6 7

Con el diagrama de tallo y hojas podemos observar rápidamente que hubo 2 comerciantes que compraron 94 comerciales y que el número de anuncios comprados fue desde 93 hasta 97. Un diagrama de tallo y hojas es semejante a una distribución de frecuencia, pero con más información, esto es, valores de datos en lugar de marcas.



DIGRAMA DE CAJAS

Diagrama de caja (Box-Plot)

Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la caja, y dos brazos, los bigotes.

Es un gráfico que se suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y simetría de la distribución.

Como dibujarlo

                            +-----+-+ 
* o |-------| | |---|
+-----+-+

+---+---+---+---+---+---+---+---+---+---+---+---+
0 1 2 3 4 5 6 7 8 9 10 11 12
  • Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el rango intercuartil (IQR)

En el ejemplo: Valor 7: es el Q1 (25% de los datos) Valor 8.5: es el Q2 o mediana (el 50% de los datos) Valor 9: es el Q3 (75% de los datos) Rango intercuartil IQR (Q3-Q1)=2

  • Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.
  • Para dibujar los bigotes, las líneas que se extienden desde la caja, hay que calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.

Para ello se calcula cuando se consideran atípicos los valores. Son aquellos inferiores a Q1-1.5*IQR o superiores a Q3+1.5*IQR. En el ejemplo: inferior: 7-1.5*2=4 superior: 9+1.5*2=12 Ahora se buscan los úl

timos valores que NO son atípicos, que serán los extremos de los bigotes. En el ejemplo: 5 y 10

  • Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).

En el ejemplo: 0.5 y 3.5 Pero además



se puede

n considerar valores extremadamente atípicos a los que exceden Q1-3*IQR o Q3+3*IQR. De tal modo que, en el ejemplo: inferior: 7-3*2=1 superior: 9+3*2=15 El valor 0.5 seria atípico extremo y 3.5 sería atípico


LOS DIAGRAMAS DE CAJAS Y BIGOTES

Los diagramas de cajas y bigotes –también llamados boxplots o box and whiskers – son representaciones gráficas de una distribución estadística unidimensional en las que se reflejan cinco parámetros: límite inferior, primer cuartil, mediana, tercer cuartil y límite superior. A partir de estos cinco parámetros se pueden obtener fácilmente otros dos: el rango y el rango intercuartílico. Además, también dan una medida de la simetría o asimetría de la distribución, del sesgo y de la dispersión.
Se observa que:
1. El bigote de la izquierda es algo más corto que el de la derecha, lo que indica que las calificaciones de la cuarta parte más baja de la clase están algo más concentradas que las calificaciones de la cuarta parte que las tienen más altas.
2. También se observa que la parte izquierda de la caja, que corresponde a los alumnos que han obtenido calificaciones entre el 25% y el 50% es menor que la de la derecha, lo que indica que las calificaciones de estos últimos alumnos están más dispersas.
3. Es fácil ver que el rango es: Ls - Li = 9 – 3 = 6

Y el rango intercuartílico es: Q3 -

Q1=6,5– 4,5 = 2

También se observa que la distribución es asimétrica y ligeramente sesgada hacia la

derecha.


COVARIANZA

Covarianza



El análisis de la covarianza o ANCOVA, acrónimo del inglés analysis of covariance, es un modelo lineal general con una variable cuantitativa y uno o más factores. El ANCOVA es una fusión del ANOVA y de la regresión lineal múltiple. Es un procedimiento estadístico que permite eliminar la heterogeneidad causada en la variable de interés (variable dependiente) por la influencia de una o más variables cuantitativas (covariables). Básicamente, el fundamento del ANCOVA es un ANOVA al que a la variable dependiente se le ha eliminado el efecto predicho por una o más covariables por regresión lineal múltiple. La inclusión de covariables puede aumentar la potencia estadística porque a menudo reduce la variabilidad. la covarianza es una medida de dispersión conjunta de dos variables estadísticas

La covarianza S(X,Y) de dos variables aleatorias X e Y se define como:

S_{xy} = \frac 1n \sum_{i=1}^n { (x_i - \overline{x})(y_i - \overline{y})}
  • Si Sxy > 0 hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes valores de y.
  • Si Sxy = 0 Una covarianza 0 se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas.
  • Si Sxy <> hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeños valores de y.

La matriz de covarianza ΣXY de dos variables aleatorias n-dimensionales expresadas como vectores columna X=(X_1,\ldots,X_n)^t e Y=(Y_1,\ldots,Y_n)^t se define como:

S_{XY}={\operatorname{E}([X - \operatorname{E}(X)][Y - \operatorname{E}(Y)]^t)}

covarianza o ANCOVA, acrónimo del inglés analysis of covariance, es un modelo lineal general con una variable cuantitativa y uno o más factores. El ANCOVA es una fusión del ANOVA y de la regresión lineal múltiple. Es un procedimiento estadístico que permite eliminar la heterogeneidad causada en la variable de interés (variable dependiente) por la influencia de una o más variables cuantitativas (covariables). Básicamente, el fundamento del ANCOVA es un ANOVA al que a la variable dependiente se le ha eliminado el efecto predicho por una o más covariables por regresión lineal múltiple. La inclusión de covariables puede aumentar la potencia estadística porque a menudo reduce la variabilidad.

CORRELACION CUADRATICA

Una de las tres medidas de ajuste calculadas por ALSCAL. RSQ es la más fácil de entender, pero ALSCAL no la optimiza. RSQ es la correlación cuadrática entre las disparidades y las distancias. Las disparidades son los datos, después de haber sido transformadas óptimamente para maximizar la medida S-STRESS. Las distancias son generadas por el modelo. Así, RSQ mide el ajuste del modelo a los datos transformados. Indica la proporción de la varianza de los datos transformados que es explicada por las distancias del modelo. RSQ es una medida de bondad de ajuste, con un valor de 1 para un ajuste perfecto y un valor de 0 para la falta total de ajuste.

REGESION LINEAL

Regresión lineal

Artículo bueno Wikipedia:Artículos buenos
Ejemplo de una regresión lineal con una variable dependiente y una variable independiente.

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

Y = \beta_0  + \beta_1 X_1 + \beta_2 X_2 +  \cdots +\beta_p X_p + \varepsilon

donde β0 es la intersección o término "constante", las βi son los parámetros respectivos a cada variable independiente, y p es el número de

parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

CORRELACION

Correlación


la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.


Fuerza, sentido y forma de la correlación

La relación entre dos super variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

  • La fuerza extrema segun el caso, mide el grado en que la a representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
  • El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la re lación es negativa.

Coeficientes de correlación

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por Francis Galton), que se obtiene dividie

ndo la covarianza de dos variables por el producto de sus desviaciones estándar. Otros coeficientes son:

Interpretación geométrica

Ambas series de valores X (x_1, \ldots, x_n) e Y (y_1, \ldots, y_n) pueden estar consideradas como vectores en un espacio a n dimensiones. Reemplacemoslos por vectores centrados:

X (x_1 - \bar x, \ldots, x_n - \bar x) e Y (y_1 - \bar y, \ldots, y_n - \bar y).


El coseno del ángulo alfa entre estos vectores es dada por la fórmula siguiente :

 cos(\alpha) = \dfrac{\displaystyle \sum_{i=1}^N (x_i - \bar x)\cdot(y_i - \bar y)}{\sqrt{\displaystyle \sum_{i=1}^N (x_i - \bar x)^2}\cdot\sqrt{\displaystyle \sum_{i=1}^N (y_i - \bar y)^2}}

Pues cos(α) es el coeficiente de correlación de

Pearson.

¡ El coeficiente de correlación es el coseno entre ambos vectores centrados!

Si r = 1, el ángulo α = 0°, ambos vectores son colineales (paralelos).
Si r = 0, el ángulo α = 90°, ambos vectores son ortogonales.
Si r =-1, el ángulo α = 180°, ambos vector es son colineales de dirección opuesto.
Más generalmente : α = arcCos(r).

Por supuesto, del punto vista geométrica, no hablamos de correlación lineal: el coeficiente de correlación tiene siempre un sentido, cualquiera que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, que sobre su distancia angular en la hyperesfera a n dimensiones.

TABLAS DE DOBLE ENTRADA

En una tabla de doble entrada, los datos se muestran en columnas y filas al igual que en las tablas. Sin embargo, en comparación con las tablas, cada columna tiene por lo menos un encabezado y cada fila tiene por lo menos un encabezado de fila. Los datos correspondientes aparecen en la intersección de los encabezados de la columna y la fila: esta sección corresponde al "cuerpo".

El ejemplo de la tabla de doble entrada muestra el volumen de negocios por prestación y por trimestre. Los rótulos de las prestaciones son encabezados de fila y, los rótulos de trimestre son encabezados de columna. El volumen de negocios para cada prestación para cada trimestre aparece en el cuerpo.

Para entender la disposición de los elementos en una tabla de doble entrada, imagínese la tabla de doble entrada como un bloque terminado. Los objetos que se colocan en el cuadrante inferior izquierdo de la tabla de doble entrada proporcionan los datos para los encabezados de fila; los objetos colocados en el cuadrante superior derecho proporcionan los datos para los encabezados de columna, y los objetos del cuadrante inferior derecho proporcionan los datos para el cuerpo de la tabla. No puede colocar ningún objeto en el cuadrante superior izquierdo.



Uso

Presentación de la información en un formato multidimensional de filas y columnas, donde cada elemento está asociado a otro. Por ejemplo, un tipo de prestación podría estar asociado a un centro de vacaciones en particular.



Importante

  • Organice los objetos en el orden en que desea que aparezcan en el bloque.
  • Depende de si el documento contiene secciones o no, la disposición del cuerpo de la tabla de doble entrada corresponde siempre a la organización de los objetos del panel Bloque.
  • Los objetos de tipo indicador no se pueden utilizar en los encabezados verticales u horizontales; sólo se pueden utilizar en el cuerpo de la tabla de doble entrada.
  • Puede utilizar más de un objeto en el cuerpo de la tabla de doble entrada.
  • Puede utilizar varios objetos en los encabezados verticales u horizontales.
    Por ejemplo, podría utilizar los objetos Tipos de prestaciones y Prestaciones en un encabezado, de modo que tanto el tipo de prestaciones como las prestaciones se muestren en la tabla de doble entrada.
  • Los objetos no tienen que formar parte de la misma clase. Por ejemplo, podría utilizar los objetos Tipo de prestaciones y Centro de vacaciones para mostrar información por tipo de prestaciones por centro de vacaciones.