top of page

3 Análisis exploratorio de datos

analisisexploratorio.jpg

Es fundamental porque es un análisis que se puede

realizar a prima facie, que nos ayuda a estudiar los datos

que poseemos, observar errores y principalmente es una

gran ayuda al Preprocesamiento y Limpieza, que nos 

brinda información sin mucho esfuerzo, solamente

trabajando con la herramienta exploratoria que

consideremos pertinente.

Muchos autores no consideran al Análisis Exploratorio

como una fase del KDD, pero si la incorporan junto con

las tareas de Preprocesamiento o en alguna otra fase.

Sin entrar en esta discusión, desde nuestro punto de vista consideráramos que es imprescindible su realización y que el lugar apropiado para la misma puede ser antes o después de la fase de Preprocesamiento y Limpieza o paralela a ella, pero es imprescindible que la realicemos.

¿Es importante el Análisis Exploratorio?

¿En que se basa este análisis?

En gráficos y métodos estadísticos que permiten explorar la distribución identificando características tales como: valores atípicos o outliers, saltos o discontinuidades, concentraciones de valores, forma de la distribución, etc.

Se puede realizar sobre todos los casos conjuntamente o de forma separada por grupos. En este último caso los gráficos y estadísticos permiten identificar si los datos proceden de una o varias poblaciones, considerando la variable que determina los grupos como factor diferenciador de las poblaciones.

 

También permite comprobar, mediante técnicas gráficas y contrastes no paramétricos, si los datos han sido extraídos de una población con distribución aproximadamente normal.

Las estadísticas más importantes que suelen usarse es el intervalo de confianza, la media, el gráfico de tallo y hojas; y el diagrama de caja y bigote, entre otros. 

A continuación mostraremos algunos situaciones presentadas en esta fase.

Valores atípicos u outliers

Tipos de variables

Antes de empezar con el análisis propiamente dicho es  necesario que sepamos diferenciar los tipos de variables  con los que trabajaremos.

Cuantitativas o Numéricas​​

Para el análisis se utilizan medidas tales como mínimo, máximo, media, varianza, moda, mediana, etc; y gráficos como los diagramas de cajas o los histogramas.​​

Pueden ser:

  • Discretas: La variable solo puede tomar valores en un número determinado de valores. En cada intervalo de valores la variable solo puede tomar un valor. Por ejemplo cantidad de muestras, cantidad de docentes, etc.

  • Continuas: La variable puede adquirir cualquier valor dentro de un intervalo de valores determinado. Por ejemplo el sueldo de los empleados, la superficie en metros cuadrados de los terrenos, etc.

 

Cualitativas o Categóricas​

Para el análisis de frecuencia se suelen utilizar gráficos como histogramas o de caja y bigotes, este último es especialmente útil para detectar valores nulos o fuera de rango.​

Pueden ser:

  • Nominales: ​Una variable es nominal cuando nombran al objeto al que se refieren sin poder establecer un orden. Por ejemplo el estado civil (casado, soltero, divorciado, etc), la nacionalidad (argentino, uruguayo, ecuatoriano, etc)

  • Ordinales: Una variable es ordinal cuando sus valores establecer un orden entre sus valores. Por ejemplo la nota de un examen (desaprobado, aprobado, sobresaliente), la altura de una persona (alto, promedio, bajo), etc.​

tiposvariables.jpg

A continuación se muestran los métodos y gráficos estadísticos mas comunes que se usan para el Análisis Exploratorio y que las herramientas de Minería de Datos y lenguajes como Python suelen proveer.

Histograma

Es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. 

Se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. Se representan los intervalos de clase en el eje de abscisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical).

Nota: el gráfico que se muestra a la derecha es el histograma que se obtiene en RapidMiner para el análisis de una variable (en este caso release_year).

histograma1.PNG
histograma.jpg

El gráfico de la izquierda es una previsualización que nos muestra RapidMiner de los atributos de los datasets antes de empezar con el análisis definitivo o Visualizaciones como lo llama RapidMiner.

Un punto muy importante a tener en cuenta es el tipo de datos que solicita la herramienta (como RapidMiner) o el lenguaje usado (como Python), es decir, por ejemplo en RapidMiner para generar el histograma se solicita que dicho atributo sea Nominal.

Diagrama de barras

Es un gráfico que se utiliza para representar datos de variables cualitativas o discretas. Está formado por barras rectangulares cuya altura es proporcional a la frecuencia de cada uno de los valores de la variable.

  • En el eje de abscisas se colocan las cualidades de la variable, si la variable es cualitativa, o los valores de dicha variable, si es discreta.

  • En el eje de ordenadas se colocan las barras proporcionales a la frecuencia relativa o absoluta del dato.

barras.PNG

Diagrama de Cajas o

Diagrama de Caja y Bigote

Permite representar gráficamente una serie de datos numéricos a través de sus cuartiles. Muestra a simple vista la mediana y los cuartiles de los datos, pudiendo también representar los valores atípicos de estos y determinar la simetría de la distribución. Características:

  • Permite visualizar un conjunto de valores.

  • Muestra información sobre valores mínimo, máximo y cuartiles.

  • Permite determinar la existencia de valores atípicos y la simetría de la distribución.

diagrama-de-caja-ejemplo-1.jpg

Pasos para el cálculo del Diagrama de Cajas

1º Calcular la mediana: 
La mediana de una muestra es un valor numérico que divide la muestra en dos partes con la misma cantidad de elementos. Pautas para calcularla:

  1. Ordenar los valores de la muestra.

  2. Si la cantidad de elementos es impar, la mediana es el elemento central de la muestra.

  3. Si la cantidad de elementos es par, la mediana es el promedio de los dos valores centrales.

 

2º Calcular el 1er. y el 3er. cuartil
Los cuartiles son valores que dividen a la muestra en 4 partes con la misma cantidad de elementos.
Pasos para calcular el primer cuartil

  1. Tomar el primer segmento incluyendo la mediana si la cantidad de elementos de la muestra original es impar, es decir, si la mediana coincide con un valor de la muestra.

  2. Repetir el mismo proceso utilizado para la calcular la mediana.

  3. Para el 3er.cuartil repetir el proceso con el 2do. segmento

bottom of page