top of page

1 ¿Qué es Minería de Datos?

Empecemos con dos sencillas definiciones:

Def.1: Proceso de detectar la información procesable de conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. (Microsoft, 2017)

Def.2: Proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos. (Pérez López y González, 2.007)

datamining3_edited.png

¿Qué tienen en común ambas definiciones?

En todas se intenta descubrir los PATRONES que tienen en común los datos iniciales de los cuales partimos, es decir partiendo de grande conjunto de datos pueda encontrar conocimiento valioso de los mismos, que ayuden en la toma de decisiones.

Supongamos que tenemos la tabla que se muestra debajo (que posteriormente trabajaremos). Es una tabla simple que nos indica con algunos ejemplos (14) en que ocasiones se juega al Golf.

kdd1.png

¿Qué podemos decir que tienen en común los días que NO se juega al golf?

- 4 de los 5 días que no se juega estuvo soleado.

- el día que no se jugó y no estaba soleado estaba lloviendo.

De todas maneras son muchos los patrones que podríamos obtener, pero tenemos algunas limitaciones como veremos posteriormente (tal como la cantidad de registros, datos atípicos (en este caso no hay pero posteriormente estudiaremos que son y como tratarlos), etc.

flechaabajo.png
golf.PNG

¿Qué diferencia hay entre Big Data y DataMining?:

Un tema que suele generar confusión es la diferencia entre Big Data y DM, muchos autores marcan que para que sea Big Data se debe trabajar con un gran volumen grande de datos (iguales o mayores a 1 Tb) que pueden ser estructurados, semiestructurados y no estructurados. Generalmente se considera que debe contener las 5 "V"

  • Volumen: Gran cantidad de datos.

  • Variedad: Diferentes formas de datos.

  • Velocidad: Con la que se reciban los datos y se aplique alguna acción.

  • Veracidad: De los resultados de los análisis.

  • Valor: Referencia a la utilidad del análisis.

Otros autores también suman la:

  • Visibilidad: Naturaleza y el tipo de los datos, teniendo en cuenta que las Base de Datos pueden ser estructuradas y no estructuradas.

Big Data-3.jpg

Es el proceso de descubrir patrones y relaciones en grandes conjuntos de datos, utilizando técnicas de aprendizaje automático y análisis estadístico, con el fin de extraer conocimiento valioso y apoyar la toma
de decisiones informadas. (Foster Provost, "Data Science for Business", 2013)

Es un campo interdisciplinario que se enfoca en la extracción de conocimiento valioso a partir de grandes conjuntos de datos. La Ciencia de Datos combina técnicas de estadística, matemáticas, informática y análisis de datos para descubrir patrones, relaciones y tendencias en los datos.

¿Qué diferencia hay entre Data Science y DataMining?

Muchas veces también cuesta entender la diferencia entre estos dos conceptos:

  • La ciencia de datos tiene como objetivo general, analizar el conjunto de datos con el fin de descubrir conocimiento de utilidad, ya sea de tipo social, tendencias o de riesgos, entre otros;

  • La minería de datos tiene objetivos más específicos, como el modelado estadístico y uso de algoritmos de machine learning para encontrar patrones y correlaciones.

Diferencia entre DM, DS e IA

Partiendo de que la IA es  una herramienta práctica inteligente que puede realizar tareas específicas, pero su desempeño depende de los algoritmos y el aprendizaje automático que la guían. 

  • DM ==> es un subcampo de la DS que se enfoca en la EXTRACCIÓN DE PATRONES Y RELACIONES EN GRANDES CONJUNTOS DE DATOS, se utiliza comúnmente en aplicaciones como la recomendación de productos, la predicción de comportamientos y la identificación de anomalías en los datos. Tiene OBJETIVOS MÁS ESPECÍFICOS  como el modelado estadístico y uso de algoritmos de machine learning para encontrar patrones y correlaciones.

  • DS ==> CAMPO INTERDISCIPLINARIO, se centra en la RECOLECCIÓN, ALMACENAMIENTO, ANÁLISIS Y VISUALIZACIÓN DE DATOS para responder a preguntas, resolver problemas y tomar decisiones informadas. Tiene como OBJETIVO GENERAL, ANALIZAR EL CONJUNTO DE DATOS CON EL FIN DE DESCUBRIR CONOCIMIENTO DE UTILIDAD, ya sea de tipo social, tendencias o de riesgos, entre otros.

  • IA ==> es un campo que se enfoca en el desarrollo de sistemas que pueden realizar tareas que habitualmente REQUIEREN LA INTELIGENCIA HUMANA, como el APRENDIZAJE, la RESOLUCIÓN DE PROBLEMAS, la TOMA DE DECISIONES y OTROS. La IA se centra en la creación de sistemas que PUEDEN APRENDER, ADAPTARSE Y MEJORAR CON EL TIEMPO, utilizando técnicas como el APRENDIZAJE AUTOMÁTICO, el PROCESAMIENTO DEL LENGUAJE NATURAL y la VISIÓN POR COMPUTADORA.

image.png

¿Qué diferencia hay entre los sistemas tradicionales de explotación de datos y datamining?

 

  • En los sistemas tradicionales quien formula la hipótesis debe saber cuál es la información que necesita.

  • La complejidad de los datos almacenados y sus interrelaciones dificulta la verificación del modelo.
     

La gran diferencia es que la Minería de Datos busca el descubrimiento del conocimiento sin una hipótesis preconcebida.

Finalmente, consideramos importante tener en cuenta en que Tecnologías se apoya DataMining y que explican el auge de las mismas:

  • Recolección masiva de datos

  • Potentes computadoras con multiprocesadores 

  • Algoritmos de Data Mining

bottom of page