Text summarization: Conoce cómo funciona la generación automática de resúmenes

Carlos Rodríguez Abellán  9 mayo, 2019

El hecho de que cada vez más personas estemos conectadas a Internet y que, además, generemos más y más contenido hace que el análisis o estudio de la información alojada en la red sea una tarea inabordable. Una gran cantidad de esta información se trata de textos como, por ejemplo, noticias, artículos de opinión, documentos científicos, reviews de artículos, etc.

El Procesado de Lenguaje Natural (PLN, o NLP por sus siglas en inglés) es la rama dentro del ámbito de las ciencias de la computación, la lingüística y la inteligencia artificial que se encarga del estudio y desarrollo de técnicas que permitan a los ordenadores entender y procesar el lenguaje humano.


En concreto, Text Summarization o Automatic Summarization (Resumen Automático en español) es la técnica mediante la cual podemos sintetizar fragmentos largos de texto en fragmentos de textos más cortos que contengan únicamente aquella información que es relevante. Gracias a esto podemos diseñar y desarrollar modelos que nos ayuden a condensar y presentar la información ahorrándonos tiempo de lectura y maximizando la cantidad de información por palabra.

Modelos de text summarization ampliamente utilizados

En función de como se realice el resumen podemos distinguir dos estrategias:

  • Extracción: Consiste en identificar y extraer directamente del documento original entidades relevantes sin someterlas a ningún tipo de modificación. Dichas entidades pueden ser palabras frases. El caso más sencillo sería utilizar las palabras como etiquetas para, posteriormente, clasificar un determinado documento. La detección de estas keywords puede realizarse buscando en el documento una serie de palabras establecidas a priori como relevantes o, por ejemplo, mediante un modelo (Latent Dirichlet Allocation [3], o LDA, permite detectar los temas o topics predominantes en un determinado corpus, o conjunto de documentos). 

Mediante este método el resumen automático de un documento se realiza mediante la combinación estas palabras y/o frases en estructuras más complejas pero sin realizar ninguna modificación en el texto extraído.

  • Abstracción: Esta técnica, además de detectar las entidades más relevantes en el documento, es capaz de generar texto a partir de dichas entidades. Dicha paráfrasis ha de realizarse con algún modelo de generación de lenguajes naturales (GLN, o NLG por sus siglas en inglés) por lo que la complejidad de este método es mayor comparada a la anterior.

Ejemplo:

Texto original: El principito arrancó también con un poco de melancolía los últimos brotes debaobabs. Creía que no iba a volver nunca.”

Ejemplo de extracción: “El principito arrancó los brotes. No iba a volver.”

Ejemplo de abstracción:“Creyendo que no volvería el principito arrancó los brotes con melancolía. volvería.”

Por otra parte, en función de la escala a la que se realicen los resúmenes podemos distinguir entre:

  • Un documento: El resumen se realiza sobre un único documento. Dicho documento puede ser un artículo, una noticia, un report, un email, etc.
  • Varios documentos. El objetivo es el mismo que en el caso anterior pero incluyendo información de todos los documentos. También puede ser parte de la tarea agrupar los documentos en clusters de documentos que compartan similitudes entre ellos.

Como comentábamos, existen diferentes maneras de desarrollar un modelo de text summarization en función, principalmente, del objetivo, de los datos disponibles y del tipo de resumen que queramos obtener con dicho modelo.

En siguientes posts hablaremos de algunos de estos métodos presentando distintos escenarios con algunas posibles soluciones.

Referencias

[1] https://www.domo.com/solution/data-never-sleeps-6

[2] https://www.sciencedaily.com/releases/2013/05/130522085217.htm

[3] http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf

Para mantenerte al día con LUCA visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *