top of page

El sentido de explicar los conceptos y Técnicas de la Minería de Textos es porque el tema visto previamente de Clustering está muy relacionado con la Minería de Textos, pero es importante mencionar que a pesar de formar parte de Data Mining es una de las ramas más importantes de la mismas y debiera tener un apartado mucho mas amplio y especifico, siendo esto solo una pequeña introducción.

Text Mining

Es una rama específica de la minería de datos que se refiere al proceso de analizar y derivar información nueva de textos.​ Por medio de la identificación de patrones o correlaciones entre los términos se logra encontrar información que no está explícita dentro del texto. Los textos que se usan como recursos pueden ser páginas web, libros, correos electrónicos, reseñas de clientes, artículos, entre otros.

Es el conjunto de técnicas y tecnologías que se utilizan para explorar grandes cantidades de texto, de manera automática o semiautomática, y descubre patrones repetitivos, tendencias o reglas que explican el comportamiento del texto.

textmining.jpeg
textmining1.PNG

Evolución de Referencias a Minería de Textos 1992 - 2015 (Justicia de la Torre, 2017, "Nuevas Técnicas de Minería de Textos: Aplicaciones")

KDT ( Knowledge Discovery in Text)

kdt.PNG

El proceso de Descubrimiento de Conocimientos en Textos o KDT es similar a KDD, con algunas pequeñas diferencias (Comparativa entre los procesos KDD y KDT, Paralic 2001):

No es lo mismo trabajar con Datos que con Textos, presenta una complejidad diferente que debe ser tenida en cuenta, empezando por donde se obtiene la misma intranets, páginas web, informes, documentos, redes sociales, etc.

También presentan problemas de crecimiento exponencial en la resolución de los problemas planteados en la Minería de Textos, en donde es fundamental tener en cuenta el preprocesamiento de la información.

Preprocesamiento de Documentos

Hay que elegir cuidadosamente las técnicas que se emplearán teniendo en cuenta la tabla propuesta por Montes y Gomez et.al (2002), en donde se puede observar la relación entre Preprocesamiento, Representación y Descubrimiento.

textmining2.PNG

También es importante entender las fases que se muestra a continuación y que se atravesarán para obtener el corpus deseado tal como fue planteado por S. Iiritano y Rullo (2003).

textmining3.PNG

Hay dos enfoques para realizar la Minería de Textos, según los principales autores:

  • No se trabaja con todo el texto de los documentos, sino con documentos categorizados para realizar el Preprocesamiento (documentos etiquetados con términos que identifican su contenido). ==> Feiju Xu y Feldman

  • Se trabaja con el conjunto de documentos, el corpus se somete a técnicas de NLP para realizar un Preprocesamiento Lingüístico, como el etiquetado o extracción de términos.

Web Mining

Web Mining trata de extraer información y conocimiento útil a través de la actividad que se desarrolla en un sitio web, por ejemplo, el análisis de tráfico, los contenidos más populares o datos demográficos de las visitas.

Web-Mining.jpg

Aplicaciones de Web Mining

Web Content Mining o Minería del contenido de la Web: Esta técnica está basada en el contenido, en su exploración y extracción de texto, imágenes y gráficos de una página web, con el fin de conocer la relevancia del contenido más visitado y su posicionamiento SEO.

Web Structure Mining o Minería de la estructura de la Web: Es una herramienta que permite identificar la relación entre las páginas web vinculadas por información o conexión directa. Se trata de analizar la estructura de la web, con el fin de extraer datos relacionados con las consultas de búsqueda.

webmining4.png

Web Usage Mining o Minería de los registros de navegación en la Web: Este tipo de técnica permite recopilar información de acceso a la web. Esta información se almacena normalmente de forma automática en los registros de acceso a través del servidor web. Los scripts CGI ofrecen otra información útil como registros de referencias, información de suscripción de usuarios y registros de encuestas. Esta categoría es importante para el uso general de la minería de datos para las empresas y sus aplicaciones basadas en Internet / Intranet y acceso a la información.

Análisis de Sentimientos

 El Análisis de Sentimientos o Minería de Opinión es una tarea de clasificación masiva de documentos de manera automática, que se centra en catalogar los documentos en función de la connotación positiva o negativa del lenguaje ocupado en el mismo.

Es el proceso de determinar el tono emocional que hay detrás de una serie de palabras, y se utiliza para intentar entender las actitudes, opiniones y emociones expresadas en una mención online.

analisisdesentimientos1.png
bottom of page