Text summarization: Conoce cómo funciona la generación automática de resúmenesCarlos Rodríguez Abellán 9 mayo, 2019 El hecho de que cada vez más personas estemos conectadas a Internet y que, además, generemos más y más contenido hace que el análisis o estudio de la información alojada en la red sea una tarea inabordable. Una gran cantidad de esta información se trata de textos como, por ejemplo, noticias, artículos de opinión, documentos científicos, reviews de artículos, etc. El Procesado de Lenguaje Natural (PLN, o NLP por sus siglas en inglés) es la rama dentro del ámbito de las ciencias de la computación, la lingüística y la inteligencia artificial que se encarga del estudio y desarrollo de técnicas que permitan a los ordenadores entender y procesar el lenguaje humano. En concreto, Text Summarization o Automatic Summarization (Resumen Automático en español) es la técnica mediante la cual podemos sintetizar fragmentos largos de texto en fragmentos de textos más cortos que contengan únicamente aquella información que es relevante. Gracias a esto podemos diseñar y desarrollar modelos que nos ayuden a condensar y presentar la información ahorrándonos tiempo de lectura y maximizando la cantidad de información por palabra. Modelos de text summarization ampliamente utilizados En función de como se realice el resumen podemos distinguir dos estrategias: Extracción: Consiste en identificar y extraer directamente del documento original entidades relevantes sin someterlas a ningún tipo de modificación. Dichas entidades pueden ser palabras o frases. El caso más sencillo sería utilizar las palabras como etiquetas para, posteriormente, clasificar un determinado documento. La detección de estas keywords puede realizarse buscando en el documento una serie de palabras establecidas a priori como relevantes o, por ejemplo, mediante un modelo (Latent Dirichlet Allocation [3], o LDA, permite detectar los temas o topics predominantes en un determinado corpus, o conjunto de documentos). Mediante este método el resumen automático de un documento se realiza mediante la combinación estas palabras y/o frases en estructuras más complejas pero sin realizar ninguna modificación en el texto extraído. Abstracción: Esta técnica, además de detectar las entidades más relevantes en el documento, es capaz de generar texto a partir de dichas entidades. Dicha paráfrasis ha de realizarse con algún modelo de generación de lenguajes naturales (GLN, o NLG por sus siglas en inglés) por lo que la complejidad de este método es mayor comparada a la anterior. Ejemplo: Texto original: «El principito arrancó también con un poco de melancolía los últimos brotes debaobabs. Creía que no iba a volver nunca.» Ejemplo de extracción: «El principito arrancó los brotes. No iba a volver.» Ejemplo de abstracción:«Creyendo que no volvería el principito arrancó los brotes con melancolía. volvería.» Por otra parte, en función de la escala a la que se realicen los resúmenes podemos distinguir entre: Un documento: El resumen se realiza sobre un único documento. Dicho documento puede ser un artículo, una noticia, un report, un email, etc.Varios documentos. El objetivo es el mismo que en el caso anterior pero incluyendo información de todos los documentos. También puede ser parte de la tarea agrupar los documentos en clusters de documentos que compartan similitudes entre ellos. Como comentábamos, existen diferentes maneras de desarrollar un modelo de text summarization en función, principalmente, del objetivo, de los datos disponibles y del tipo de resumen que queramos obtener con dicho modelo. En siguientes posts hablaremos de algunos de estos métodos presentando distintos escenarios con algunas posibles soluciones. Referencias [1] https://www.domo.com/solution/data-never-sleeps-6 [2] https://www.sciencedaily.com/releases/2013/05/130522085217.htm [3] http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube. Cómo detectar Fake News con Machine LearningDe caballero a diplomático, y de diplomático a estratega: la evolución del CDO
Telefónica Tech Lo que necesita la Inteligencia Artificial para generar confianza (podcast) El el episodio 10 de nuestro podcast Latencia Cero, “ConfIA en la IA”, tuvimos la oportunidad de contar con la participación de Lucía Ortiz de Zárate, investigadora en Ética...
Nacho Palou 5G: cuatro casos de uso reales y prácticos El último informe “La Sociedad Digital en España 2022” [1] de Fundación Telefónica confirma la consolidación de los procesos de digitalización en la sociedad española. En este sentido, cabe...
Nacho Palou Cursos gratuitos online para aprender IoT (Internet de las Cosas) en 2023 Internet de las Cosas (IoT) es una de las tecnologías digitales de nueva generación con un impacto significativo en múltiples sectores, desde la industria a la agricultura, pasando por...
Fran Ramírez Mujeres que cambiaron las Matemáticas Por Fran Ramírez y Fran Fenoll Aprovechando que en marzo también se celebra el día Internacional de las Matemáticas, hemos querido rendir con esta recopilación un pequeño homenaje a mujeres que...
Nacho Palou #MujeresHacker de Telefónica Tech: Jess Woods, experta en Cloud Con motivo del Día de la Mujer, iniciamos una serie de entrevistas protagonizadas por #MujeresHacker de Telefónica Tech. Mujeres que, con su trabajo y esfuerzo, nos convierten en una...
Sergio Piorno Güemes Un nuevo paradigma financiero: la tokenización de activos En los últimos años se ha acelerado la digitalización del ecosistema financiero gracias a la adopción generalizada de internet y su consecuente desarrollo. Esto, junto con el auge de los dispositivos móviles,...