martes, 23 de septiembre de 2008

Medidas de dispersión

El rango semi-intercuartil o desviación cuartil de un conjunto de datos se determina mediante la siguiente expresión:
Rango percentilar
El rango percentilar 10-90 de un conjunto de datos se define
rango percentil 10-90=P90-P10
Desviación estándar
La desviación estándar de un conjunto de n de números x1, x2, ... xn se denota por S
donde x representa las desviaciones de cada uno de los números xj, respecto de la Xmedia. Por lo tanto S es la media cuadrática de las desviaciones en relación con la media o, como se le llama en forma común desviación de la media cuadrática.
Ejemplo.
Calcule el rango de los conjuntos, la desviación media
a) 12, 6, 7, 3, 15, 10, 18, 5
b) 9, 3, 8, 8, 9, 8, 9, 18

Cuartiles, deciles y perceptiles

Encuentre a) Los cuartiles Q1, Q2, Q3 y b) los deciles D1, D2, D3... D9 para los salarios de la empresa Pr.
Salarios No. de empleados
$250.00-$259.99 8
$260.00-$269.99 10
$270.00-$279.99 16
$280.00-$289.99 14
$290.00-$299.99 10
$300.00-$309.99 5
$310.00-$319.99 2
Total: 65
a) El Q1 es el salario obtenido contando N/4=65/4. De los casos empezando con la primera clase (inferior). Ya que la primera clase incluye 8 casos, debemos tomar 16.25-8=8.25 de los 10 casos de la segunda clase. Por el método de interpolación lineal se obtiene Q1= $259.99 + 8.25/8 ($10.00)= $

viernes, 19 de septiembre de 2008

Resumen de la Unidad I

Notación sumatoria

Media aritmética



Propiedades de la media aritmética

Mediana

miércoles, 10 de septiembre de 2008

Regresión lineal como promedio

Mediante el siguiente ejemplo iniciaremos el estudio de lo que es la regresión lineal.
Se estudia el ingreso económico mensual de familias dependientes de obreros residentes. Dicho ingreso puede compararse contra la edad del padre de familia. De este modo, se estudian 2 variables que representan a su vez una variable bivariada susceptible. de escribirse como un par ordenado estadístico (x,y). En la tabla siguiente se muestran los datos correspondientes a una muestra aleatoria de 30 familias.

f(x)= 2.047+ 0.09738x


martes, 9 de septiembre de 2008

Problemas y ejercicios página 50

Los ejercicios 1-10 están basados en los siguientes datos.
En una grupo de sexto grado con 36 estudiantes, se administra una técnica sociométrica de "adivina quién" para evaluar el grado de relaciones positivas entre ellos para cada estudiante. Los valores para los 36 estudiantes fueron:
22 3 12 2 0 7 1 9 1 28 5 2
2 2 33 4 8 13 2 3 1 28 10 14
22 1 4 15 1 52 5 8 3 11 17 1

1. ¿Cuál es el rango?
Rango= Xmax-Xmin=52-0=52.

2. Construya una distribución de frecuencias no agrupada.

3. Construya una distribución de frecuencias agrupada, con w=5.

4. Construya un histograma de esos datos y comente sobre la forma de la distribución.

5. Construya una ojiva.

6. Estime Q1y Q2.
Q1=2 o 3, Q2=13.5

7. Calcule la media.
9.78

8. Determine la mediana.
5


9. Determine la moda.
1


10. Compare la distancia de Q1 y Q2 con la distancia de Q2 a Q3. El patrón sugiere asimetría:
Q3-Q2 es mayor que Q2-Q1. Positiva.


11. Para una década reciente, el incremento en el ingreso medio en el sur fue 74% para blancos y 113% para no blancos. ¿Cuál es el incremento medio para ambos grupos combinados si de cada 100 trabajadores 82 fueron blancos?
X mayor= X=(n1X1+n2X2)(n1+n2)=[82(74)+18(113)]/100=81%


12. Suponga que siete amigos viven junto a una autopista y quieren juntarse en la casa de uno de ellos para comer tacos y discutir las medidas de tendencia central y sus tipos favoritos de gráficas. Si sus casas a lo largo de la autopista están situadas de este a oeste en este orden: A, B, C, D, E, F, y G. ¿dónde deberían reunirse para minimizar la suma de las distancias recorridas? (Sugenerencia: ¿de cuál punto se minimiza la suma de las desviaciones?)
Md en el punto D. (La suma de las desviaciones absolutas es un mínimo alrededor de la mediana).


13. Suponga que una distribución tiene una media de 70, una mediana de 65 y una moda de 55. ¿En qué dirección está sesgada la distribución?
Está sesgada a la derecha, es decir, positivamente.


14. Si aplica una pruebla de CI a una clase en dos ocasiones separadas, como regla general, comente sobre las diferencias relativas entre las dos medias, las dos medianas y las dos modas.
Se espera que las medias difieran menos y que las modas difieran más.


Las preguntas 15-16 corresponden a los datos presentados en la tabla.
15. Mo= Moda= 50
16. Md= Mediana= 51

Problemas y Ejercicios pág. 31

1. Suponga que el siguiente conjunto de datos es una muestra aleatoria de 40 calificaciones de autoconcepto.
100 112 88 105 100 102 98 113
102 87 93 93 117 100 98 92
100 117 97 100 83 67 76 100
106 117 89 83 100 109 109 93
105 108 104 63 81 109 100 98

a) Determine Xmax, Xmin, y el rango.
Xmax= 117, Xmin=63, rango=54.

b) ¿Cuántos intervalos sugeriría para mostrar las distribuciones?
cerca de 10 intervalos a menos que n sea muy grande.
c) Determine el ancho del intervalo, w, para permitir 10 intervalos.
w=rango/10=54/10=5.4, redondeado a 5.
d) Si w=5, ¿cuál es el primer intervalo (valores más bajos)?
el menor múltiplo de 5 que es 63 es 60: 60-64

e) Si w=5, liste los intervalos.
f) Construya una distribución de frecuencias agrupara para los 40 valores. (Utilice el método de conteo con estacas).
g) Construya columnas de porcentajes y porcentaje acumulado para esos datos.

h) ¿Sería un polígono de frecuencias una gráfica apropiada para esos datos? ¿Por qué?
sí, los polígonos de frecuencia son excelentes para variables continuas.
i) Construya un polígono con esos datos.

j) Construya una ojiva de esos datos.

k) Estime P10, P50, P90 utilizando la ojiva.
P10=80, P50=100, P90=110
l) Construya una gráfica horizontal de caja y patillas para esos datos. (Nota: las gráficas de caja pueden tener una orientación vertical u horizontal. Para la orientación horizontal, las patillas se extienden a la izquierda y a la derecha de la caja.)

m) Comente sobre la aparente simetría o asimetría de esos datos.
parece que la distribución es asimétrica y sesgada a la izquierda.

n) ¿Cómo diferirá una ojiva de asimetría positiva de la de asimetría negativa?
la ovija de una distribución asimétrica positiva se elevaría muy rápido de la línea base en el lado izquierdo de la ojiva debido al conjunto de valores en las regiones más bajas. Por otro lado, la ojiva de una distribución asimétrica negativa no comenzará a elevarse rápidamente sino hasta que alcance los valores altos en el lado derecho de la figura.
o) ¿Puede suponer cómo podría aparecer la ojiva de una distribución rectangular?
una línea recta inclinada hacia arriba desde el extremo inferior izquierdo hasta el extremo superior derecho.

2. El siguiente conjunto de datos es de una aleatoria de 50 casos de los datos del HSB. En este caso, los números representan la raza de los individuos, de donde 1=hispano, 2=asiático, 3=negro, 4=blanco.
4 1 4 4 1 1 4 4 4 2
4 4 2 4 4 4 3 4 4 4
1 4 4 4 1 4 4 3 4 4
4 3 1 4 4 4 1 3 4 4
4 3 3 4 4 3 3 4 4 4

a) ¿Un polígono de frecuencias es apropiado para graficar esos datos? ¿Por qué?
no, ya que esos datos son categóricos más que cuantitativamente continuos.

b) ¿Es apropiada una gráfica de barras para graficar esos datos? ¿Por qué?
una excelente elección, ya que los datos no tienen un cotinuo fundamental.

c) Construya una distribución de frecuencias agrupada para esos datos.
d) Construya una columna de porcentajes para esos datos.

e) Construya un histograma de frecuencias para esos datos.
f) Etiquete el eje veretical de la figura en el inciso e para indicar frecuencia y porcentajes.

g) ¿Habría probablemente brechas entre las columnas del histograma? ¿Por qué?
sí, ya que es congruente con los datos categóricos no clasificables.

jueves, 4 de septiembre de 2008

Definiciones

Distribución de frecuencias.- Es una lista de valores de datos (ya sea de manera individual o por grupos de intervalos) junto con sus frecuencias (o conteos) correspondientes.

Límites de clase inferiores.- Son las cifras más pequeñas que pueden pertenecer a las diferentes clases.
Límites de clase superiores.- Son las cifras más grandes que pueden pertenecer a las diferentes clases.

Frontera de clase.- Son las cifras utilizadas para separar las clases, aunque sin los espacios creados por los límites de clase. Se obtienen de la siguiente manera: se determina el tamaño del espacio entre el límite de clase superior de una clase y el límite de clase inferior de la siguiente. Se suma la mitad de esa cantidad a cada límite de clase superior, para obtener las fronteras de clases superiores; se resta la mitad de esa cantidad de cada límite de clase inferior, para obtener las fronteras de clase inferiores.

Marca de clase.- Son los puntos medios de clases. Cada marca de clase se calcula sumando el límite de clase inferior con el límite de clase superior y dividiendo la suma entre dos.

Anchura de clase.-
Es la diferencia entre dos límites de clase inferiores consecutivos o dos fronteras de clase inferiores.


Distribución de frecuencias de los niveles contaminantes de nicotina

Los límites de clase inferiores son: 0, 100, 200, 300, 400
Los límites de clase superiores: 99, 199, 299, 399, 499
Fronteras de clase: -0.5, 99.5, 199.5, 299.5, 399.5, 499.5
Marca de clase: 49.5, 149.5, 249.5, 349.5, 449.5
Anchura: 100

Visualización de los datos

Histograma. Entre los distintos tipos de gráficas que se presentan este es particularmente importante. Es una gráfica de barras en donde la escala horizontal representa clases de valores de datos y la escala vertical representa frecuencias. Las alturas de las barras corresponden a los valores de frecuencias.

martes, 2 de septiembre de 2008

Distribución de frecuencias

Toma de datos: los datos estadísticos generalmente son numéricos. Con ellos se realiza el estudio de situaciones variadas en los mas diversos campos de la ciencia y tecnología. Dicho estudio se refiere a situaciones en las cuales es indispensable obtener información confiable para tomar decisiones certeras; las cuales en gran medida se producen gracias a que los datos se organizan en tablas o gráficas.
Fuentes de datos estadísticos
Experimentales.- provienen de experimentos planteados y quizá controlados en alguna de las variables por algún investigador.
Observación.- no proceden de experimentos, si no de fuentes no controlables.
Datos agrupados
Cuando se toman datos experimentales por agrupación estos aparecen sin orden, por eso se les llama datos en bruto o crudos.
Estos datos se pueden agrupar, ordenar del mayor al menor o del menor al mayor. Esto al menos permite saber cual es el dato mayor, menor y cuales de estos están en el centro. Si son pocos datos, si se repiten los datos, es decir más frecuentes.
Frecuencia.- número de veces que se repite un dato.
Estos datos también se pueden agrupar en tablas de frecuencia y frencuencias relativas. La agrupación de estas tablas se hace mediante la distribución de los datos numéricos en clases, según sea su frecuencia.
Ejemplo.
Los siguientes datos corresponden a las utilidades en pesos de una panificadora (La Conchita) durante cada uno de los últimos 24 meses. Se dan tal cual se recogieron, por eso aparecen en desorden. El dueño desea traspasar la panadería y requiere conocer esos datos para tomar una decisión.

9830.70 13686.85 19272.21 18030.36 21169.32 15737.43
14528.90 14307.33 16400.36 16505.53 16946.47 16573.73
15179.04 7814.889 13859.12 14228.12 18623.63 16573.94
18702.29 20733.58 17558.97 17383.31 12109.07 17991.51

¿Cuál es la pregunta del dueño de la panificadora?
Si debería de traspasar la panificadora o no.

¿Cuál es la población bajo estudio?
Las utilidades en pesos.

¿Cuál es la variable correspondiente?
24 meses.

Ordena los datos anteriores en una tabla de menor a mayor.

7814.889 13859.12 15179.04 16573.73 17558.97 18702.29
9830.7 14228.12 15737.43 16573.94 17991.51 19272.21
12109.07 14307.33 16400.36 16946.47 18030.36 20733.58
13686.85 14528.9 16505.53 17383.31 18623.63 21169.32

¿Cuál es el mayor dato y cuál el menor?
El mayor es 21169.32, y el menor es 7814.889

¿Cuál es la diferencia entre el dato mayor y el dato menor?
13354.4

¿Cuáles son los dos valores en el centro de los datos?
16505.53 y 16573.73


lunes, 1 de septiembre de 2008

Ejercicio

Del siguiente conjunto de datos obtener las definiciones de moda, mediana, media aritmética así como el promedio por columna y obtener el promedio total de la siguiente tabla: