martes, 13 de octubre de 2009

CAPITULO DOS


organización de datos:

conceptos generales
Fila de datos: consiste en datos recolectados que no han sido organizados en numéricamente por ejemplo: las alturas de 100 estudiantes por letra alfabética.
Organización u ordenación de datos: una ordenación de datos es un conjunto de datos numéricos en orden creciente o decreciente y a la diferencia de que existen entre el dato mayor y menor se le llama rango, de ese conjunto de datos. Así, si la mayor altura de entre 100 estudiantes era 74 pulgadas, y la menor era de 60 pulgadas. El rango seria:
Rango = dato mayor - dato menor= 74–60= 14 pulgadas.

distribución de frecuencias:

Una distribución de frecuencias es una tabla de resumen en la que los datos se disponen en agrupamientos o categorías convenientemente establecidas de clases ordenadas numéricamente

Distribuciones de frecuencias unidimensionales con los datos no agrupados.
Definiciones en general…
.
Una distribución de frecuencias unidimensional unitaria de la característica x al conjunto de los r datos distintos y ordenados de menor a mayor (xl' xz, ..., xi' •••, xr) de forma que ninguno esta repetido.
Construcción de la tabla de distribución de frecuencias
· selección del número de clases (k)
Criterio para definir el número:
Fórmula
§ k = "n
§ k = 1 + 3.322 log n
Entre 5 y 20 intervalos
· obtención de los intervalos de clase
Rango: (r) = (x max - x min) IV = [x min; x max]
Ancho intervalo (
): r / k
§ igual para todos los ii
§ diferente
· establecimiento de los límites de clase
 cifras significativas:
el mismo número que poseen las observaciones (redondear si es necesario)
una cifra significativa más que las que poseen las observaciones
 valor del límite inferior del primer inter. y lim. superior del último
li1 = x min lsk = x max. [li1 " xi " lsk]
li1 " x min lsk " x max. [li1 " xi " lsk]
[lii " xi < mi =" (lii" fi =" número" fir =" fir" fi =" número" fir =" fi" x =" “altura" k = "n = " r =" (x" k =" 27.8" 11 =" 2.53" fi =" fi" fir =" fir">


rango:
en
estadística descriptiva se denomina rango estadístico o recorrido estadístico al intervalo de menor tamaño que contiene a los datos; es calculable mediante la resta del valor mínimo al valor máximo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos.
Por ejemplo, para una serie de datos de carácter cuantitativo como es la estatura tal y como:
x1 = 185,x2 = 165,x3 = 170,x4 = 182,x5 = 155
Es posible ordenar los datos como sigue:
x(1) = 155,x(2) = 165,x(3) = 170,x(4) = 182,x(5) = 185
Donde la notación x (i) indica que se trata del elemento i-ésimo de la serie de datos. De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:
w = x (k) − x (1)
En nuestro ejemplo, con cinco valores, nos da que w = 185-155 = 30.


Algo que responde a la identificación de la dispersión de los datos de una muestra es el rango, el cual se define como la diferencia entre el dato mayor menos el dato menor de un conjunto de datos. Su obtención es sumamente sencilla, sin embargo se considera que no es una medida muy significativa, su aplicación es más útil en la llamada estadística no pará métrica. Una expresión para el rango puede ser vista como:
Podemos retomar el ejemplo planteado en el se observaba que las muestras tienen diferente dispersión, aunque su media y mediana eran iguales, por lo que una forma de marcar su diferencia es a través del rango.
Para la primera muestra (0, 45, 50, 55, 100), el dato menor es 0 y el dato mayor es 100, por lo que sus valores se encuentran en un rango de:
Rango = 100 – 0 =100
Mientras que para la segunda muestra (47, 49.5, 50, 51.5, 52), el dato menor es 47 y el dato mayor es igual a 52 por lo que su rango correspondiente es igual a:
Rango = 52 – 47= 5
Lo que indica que la segunda muestra es más homogénea ya que sus datos están dispersos en un menor rango.
Es también común identificar el rango como recorrido
.

frecuencia:
Frecuencia es una
medida que se utiliza generalmente para indicar el número de repeticiones de cualquier fenómeno o suceso periódico en la unidad de tiempo. Para calcular la frecuencia de un evento, se contabilizan un número de ocurrencias de este teniendo en cuenta un intervalo temporal, luego estas repeticiones se dividen por el tiempo transcurrido.
Según el
sistema internacional, el resultado se mide en hertzs (hz), en honor a heinrich rudolf hertz. Un hertz es aquel suceso o fenómeno repetido una vez por segundo, 2 hz son dos sucesos (períodos) por segundo, 3 hz son tres sucesos (períodos) por segundo, 4 hz son cuatro sucesos (períodos) por segundo, 5 hz son cinco sucesos (períodos) por segundo, con esto demostramos teóricamente que casi siempre hay una relación en el número de hertz con las ocurrencias. Esta unidad se llamó originariamente como ciclo por segundo (cps) y aún se sigue utilizando. Otras unidades para indicar la frecuencia son revoluciones por minuto (rpm) y radianes por segundo (rad/s). las pulsaciones del corazón o el tempo musical se mide como golpes por minuto (bpm, del inglés beats per minute).
un método alternativo para calcular la frecuencia es medir el tiempo entre dos repeticiones (
periodo) y luego calcular la frecuencia (f) recíproca de esta manera:
donde t es el periodo de la señal.
frecuencias de ondas
la frecuencia tiene una relación inversa con el concepto de
longitud de onda (ver gráfico 1 y 2), a mayor frecuencia menor longitud de onda y viceversa. la frecuencia f es igual a la velocidad v de la onda dividido por la longitud de onda λ (lambda):
en el caso especial de ondas
electromagnéticas en el vacío, se tiene que v = c, siendo c la velocidad de la luz en el vacío, y por tanto se tiene:
cuando las ondas viajan de un medio a otro, como por ejemplo de
aire a agua, la frecuencia de la onda se mantiene constante, cambiando sólo su longitud de onda y la velocidad.
aparte de que puede variar por el
efecto doppler, la frecuencia es una magnitud invariable en el universo. es decir, no se puede modificar por ningún proceso físico excepto por su velocidad de propagación o longitud de onda...
se llama frecuencia a la cantidad de veces que se repite un determinado valor de la variable.
se suelen representar con
histogramas y con diagramas de pareto.
en estadística se pueden distinguir hasta cuatro tipos de frecuencias
frecuencia absoluta (ni) de una variable estadística xi, es el número de veces que aparece en el estudio este valor. a mayor tamaño de la muestra, aumentará el tamaño de la frecuencia absoluta; es decir, la suma total de todas las frecuencias absolutas debe dar el total de la muestra estudiada (n).
frecuencia relativa (fi), es el cociente entre la frecuencia absoluta y el tamaño de la muestra (n). es decir,
siendo el fi para todo el conjunto i. se presenta en una tabla o nube de puntos en una
distribución de frecuencias (ver fig.1 y (fig.2).
si multiplicamos la frecuencia relativa por 100 obtendremos el
porcentaje o tanto por ciento (pi) que presentan esta característica respecto al total de n, es decir el 100% del conjunto.
frecuencia absoluta acumulada (ni), es el número de veces ni en la muestra n con un valor igual o menor al de la variable. la última frecuencia absoluta acumulada deberá ser igual a n.
frecuencia relativa acumulada (fi), es el cociente entre la frecuencia absoluta acumulada y el número total de datos, n. es decir,
con la frecuencia relativa acumulada por 100 se obtiene el porcentaje acumulado (pi)), que al igual que fi deberá de resultar al final el 100% de n.
se llama frecuencia a la cantidad de veces que se repite un determinado valor de la variable.
se suelen representar con
histogramas y con diagramas de pareto.



intervalos de clase:

símbolos
intervalo de clase
límites de clase
límite inferior de la clase
límite superior de la clase
Intervalo de clase abierto
Los intervalos son los límites a los extremos a los que llega una función. Son utilizados a modo de resumen cuando la cantidad de datos es muy grande. Los límites extremos de cada clase se les llaman límite inferior y superior de clase respectivamente.
Existen 3 clases de intervalos
· abiertos: se colocan entre paréntesis (por ejemplo (-3;5)). esto quiere decir que la función no toca los puntos -3 y 5 sino que llega a -2.99999 y a 4.9999.
· cerrados: se expresan entre corchetes (por ejemplo [-3;5]). esto significa que la función empieza en -3 y termina en 5).
· semi abiertos: se expresan con un paréntesis de un lado y un corchete del otro (por ejemplo (-3; 5]; esto quiere decir que la función empieza en -2.99999 y termina en 5).


limites reales de clase
Los límites inferiores y superiores son los valores mínimos y máximo de una distribución.
Límites reales de clase o límites verdaderos:
Limite superior mas limite inferior divididos

Limite inferior: 38
Límite real inferior: 38
Límite real superior: 98



tamaño de los intervalos de clase
Los intervalos de clase pueden ser de tres tipos, según el tamaño que estos presenten en una distribución de frecuencia:
a) clases de igual tamaño,
b) clases desiguales de tamaño
c) clases abiertas.
Tamaño o anchura de un intervalo de clase
n anchura de clase: diferencia entre los limites reales de clase
n tamaño de clase
n longitud de clase (c)


marca de clase
Se le llama marca de clase a los valores representativos de todos los valores incluidos en el intervalo respectivo; equivale a la semisuma de los límites inferior y superior de un intervalo
La marca de clase es el punto medio de cada intervalo. La marca de clase es el valor que representa a todo el intervalo para el cálculo de algunos parámetros.se representa por ci.
En un estudio estadístico, valor representativo de cada intervalo. Tomamos como marca de clase el punto medio de cada intervalo y lo calculamos sumando los extremos del intervalo y dividiéndolo entre 2.


frecuencia relativa
Es la relación o cociente entre la frecuencia absoluta y el número total de observaciones.
Es la proporción entre la frecuencia de un intervalo y el número total de datos.
La frecuencia absoluta, es una medida que está influida por el tamaño de la muestra, al aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia absoluta. Esto hace que no sea una medida útil para poder comparar. Para esto es necesario introducir el concepto de frecuencia relativa, que es el cociente entre la frecuencia absoluta y el tamaño de la muestra. La denotaremos por fi

Donde n = tamaño de la muestra

n distribución de frecuencias relativas, distribución porcentual o tabla de frecuencias relativas.
n histograma de frecuencias relativas o histogramas porcentuales
n polígonos de frecuencias relativas o polígonos porcentuales



frecuencia relativa acumulada
Al igual que en el caso anterior la frecuencia relativa acumulada es la frecuencia absoluta acumulada dividido por el tamaño de la muestra, y la denotaremos por fi

Porcentaje acumulado:
Análogamente se define el porcentaje acumulado y lo vamos a denotar por pi como la frecuencia relativa acumulada por 100.
n frecuencia relativa acumulada o frecuencia porcentual acumulada
n los resultados son distribuciones de frecuencias relativas acumuladas o distribuciones porcentuales acumuladas
Polígonos de frecuencias relativas acumuladas u ojivas porcentuales
distribuciones empíricas
Distribución empírica
Los percentiles empíricos se calculan a partir de la función de distribución empírica definida por los
Valores de la serie con la que se trabaja ordenada desde el valor menor al mayor, y asignando a cada valor
Ordenado su probabilidad calculada según la expresión:
prob (c£xi) = i/(n +1 ).
donde ”i” representa el número de orden que ocupa el valor “x” en la serie de datos ordenada en
orden creciente y “n” el número total de datos. la probabilidad correspondiente al 20, 40, 50, 60 ó 80 por
ciento se obtienen por interpolación lineal, considerando las probabilidades asignadas a cada dato
ordenado.


graficas
Una gráfica es una representación de datos, generalmente numéricos, mediante líneas, superficies o símbolos, para ver la relación que esos datos guardan entre sí. También puede ser un conjunto de puntos, que se plasman en
coordenadas cartesianas, y sirven para analizar el comportamiento de un proceso, o un conjunto de elementos o signos que permiten la interpretación de un fenómeno.
La
estadística gráfica es una parte importante y diferenciada de una aplicación de técnicas gráficas, a la descripción e interpretación de datos e inferencias sobre éstos. Forma parte de los programas estadísticos usados con los ordenadores. Autores como Edward r. tufte han desarrollado nuevas soluciones de análisis gráficos.
Existen diferentes tipos de gráficas, por ejemplo, las gráficas circulares, las gráficas de barras o columnas, y las gráficas lineales. Estas son las gráficas más comunes.
Las gráficas se pueden clasificar en:
numéricas: con imágenes visuales que sirven para representar el comportamiento o la distribución de los datos cuantitativos de una población.
lineales: en este tipo de gráfico se representan los valores en dos ejes cartesianos ortogonales entre sí. las gráficas lineales se recomiendan para representar series en el tiempo, y es donde se muestran valores máximos y mínimos; también se utiliza para varias muestras en un diagrama.
de barras: se usan cuando se pretende resaltar la representación de porcentajes de datos que componen un total. una gráfica de barras contiene barras verticales que representan valores numéricos, generalmente usando una hoja de cálculo. las gráficas de barras son una manera de representar frecuencias; las frecuencias están asociadas con categorías. una gráfica de barras se presenta de dos maneras: horizontal o vertical. el objetivo es poner una barra de largo (alto si es horizontal) igual a la frecuencia. la gráfica de barras sirve para comparar y tener una representación gráfica de la diferencia de frecuencias o de intensidad de la característica numérica de interés.
gráficas circulares: gráficas que nos permiten ver la distribución interna de los datos que representan un hecho, en forma de porcentajes sobre un total. se suele separar el sector correspondiente al mayor o menor valor, según lo que se desee destacar.
histogramas: se emplea para ilustrar muestras agrupadas en intervalos. está formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los límites de los intervalos y el centro de cada intervalo es la marca de clase que representamos en el eje de las abscisas. la altura de cada rectángulo es proporcional a la frecuencia del intervalo respectivo.


histogramas:
En
estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un
diagrama de sectores.
Los histogramas son más frecuentes en
ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.
Tipos de histograma
diagramas de barras simples
Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categoría que representa.
diagramas de barras compuesta
se usa para representar la información de una
tabla de doble entrada o sea a partir de dos variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.
diagramas de barras agrupadas
Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades.


polígono de frecuencias
Es un gráfico de líneas que se usa para presentar las frecuencias absolutas de los valores de una distribución en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor.
ojiva porcentual
Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual de cada valor en una distribución de frecuencias.
En los gráficos las barras se encuentran juntas y en la tabla los números poseen en el primer miembro un corchete y en el segundo un paréntesis, por ejemplo: (10-20]
Construcción de un histograma
paso 1
Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.
paso 2
Obtener los números de clases, existen varios criterios para determinar el número de clases (o barras) -por ejemplo la
regla de sturgess-. Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a quince clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 (número de artículos) es mayor que cinco, por lo que se seleccionan seis clases.
paso 3
Establecer la longitud de clase: es igual al rango entre el número de clases.
paso 4
Construir los intervalos de clases: los intervalos resultan de dividir el rango de los datos en relación al resultado del paso 2 en intervalos iguales.
paso 5
Graficar el histograma: en caso de que las clases sean todas de la misma amplitud, se hace un gráfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.
El histograma de una imagen representa la frecuencia relativa de los niveles de gris de la imagen. Las técnicas de modificación del histograma de una imagen son útiles para aumentar el contraste de imágenes con histogramas muy concentrados.
Sea u una imagen de tamaño nxn, la
función de distribución del histograma es: fu (l) = (numerodepixeles (i, j) talesqueu (i, j) < = l) / n2 Ejemplos de otros tipos de representaciones gráficas: hay histogramas donde se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural, p.e sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: a, b, ab, o. en las variables cuantitativas, las clases hay que definirlas explícitamente (intervalos de clase). Se representan los intervalos de clase en el eje de abscisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical). A veces es más útil representar las frecuencias acumuladas. O representar simultáneamente los histogramas de una variable en dos situaciones distintas. Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas. En las variables cuantitativas o en las cualitativas ordinales se pueden representar polígonos de frecuencia en lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva.


POLIGONOS DE FRECUENCIA
Es un gráfico de líneas que se usa para presentar las frecuencias absolutas de los valores de una distribución en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor

frecuencia relativa:
frecuencia relativa (fi), es el cociente entre la frecuencia absoluta y el tamaño de la muestra (n). es decir,
Siendo el fi para todo el conjunto i. se presenta en una tabla o nube de puntos en una
distribución de frecuencias (ver fig.1 y (fig.2).
Si multiplicamos la frecuencia relativa por 100 obtendremos el
porcentaje o tanto por ciento (pi) que presentan esta característica respecto al total de n, es decir el 100% del conjunto.

frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. La frecuencia acumulada se representa por fi.

pareto

El principio de pareto es también conocido como la regla del 80-20 y recibe este nombre en honor a
Wilfredo pareto, quien lo enunció por primera vez.
Pareto enunció el principio basándose en el denominado
conocimiento empírico. observó que la gente en su sociedad se dividía naturalmente entre los «pocos de mucho» y los «muchos de poco»; se establecían así dos grupos de proporciones 80-20 tales que el grupo minoritario, formado por un 20% de población, ostentaba el 80% de algo y el grupo mayoritario, formado por un 80% de población, el 20% de ese mismo algo.
Estas cifras son arbitrarias; no son exactas y pueden variar. Su aplicación reside en la descripción de un fenómeno y, como tal, es aproximada y adaptable a cada caso particular.
El principio de pareto se ha aplicado con éxito a los ámbitos de la política y la
economía. se describió cómo una población en la que aproximadamente el 20% ostentaba el 80% del poder político y la abundancia económica, mientras que el otro 80% de población, lo que pareto denominó «las masas», se repartía el 20% restante de la riqueza y tenía poca influencia política. Así sucede, en líneas generales, con el reparto de los bienes naturales y la riqueza mundial.












No hay comentarios:

Publicar un comentario