¿La clave del éxito del Machine Learning? Datos de calidadPaloma Recuero de los Santos 25 abril, 2018 No hacemos más que hablar del uso cada día más extendido del Machine Learning y otras tecnologías de Inteligencia artificial que hacen muchos procesos más eficientes y rentables. Sin embargo, no se habla tanto del enemigo número uno del Machine Learning: la falta de datos o su mala calidad. Siempre que hablamos de analíticas, tenemos que tener presente que la calidad de los resultados va a ser directamente proporcional a la calidad de los datos de partida. Y si pasamos a hablar de Machine Learning, la calidad de los datos todavía cobra mayor relevancia. No sólo respecto a los datos históricos que usamos para crear el modelo, sino también, respecto a los datos de entrada con los que alimentamos el modelo para hacer predicciones en las que basar decisiones futuras. ¿Y cómo sabemos si nuestros datos son buenos o no? Hay dos enfoques posibles para valorar la calidad de los datos. El primero, tiene que ver con que sean correctos, completos, estén bien etiquetados etc. Pero hay otro factor de vital importancia. ¿Puedo encontrar la respuesta a mi problema en este conjunto de datos?¿Están esos datos libres de cualquier tipo de sesgo?. Cuando trabajamos con analíticas Machine Learning, ambos enfoques son fundamentales.Según Harvard Business Review, sólo el 3% de los datos de las empresas reúne los requisitos de calidad mínimos. Esto se traduce en incrementos de costes, pérdidas de tiempo, peores decisiones y clientes molestos o, aún peor, enfadados. En definitiva, genera un problema de credibilidad de los datos. Factores que afectan a la calidad de los datos Los factores que afectan a la calidad de los datos son múltiples, y con distintos orígenes. Pueden ser instrumentos de medida mal calibrados, errores humanos, procesos de ingesta excesivamente complejos o, sencillamente, que no se ha entendido bien el problema y los datos que se han recogido no son los adecuados para resolverlo. Esta mala calidad de los datos es, origen de gran parte de los quebraderos de cabeza de los científicos de datos, siendo la tarea que más tiempo les lleva (puede llegar a consumir un 80% del tiempo del proyecto) y menos les gusta. Se puede ver un ejemplo del tipo de tareas implicadas en este trabajo en nuestra serie del Blog dedicada a la depuración de datos: Tus datos más limpios, casi sin frotar Tus datos más limpios…(II). Excel, “Waterproof”Tus datos más limpios (III y fin): Probando Trifacta Wrangler A pesar de todo el tiempo y el esfuerzo dedicado a las tareas de limpieza y depuración de los datos, otros aspectos como la existencia de sesgos en la información, y un mal uso de un modelo bien entrenado, pueden afectar seriamente a los resultados. Sesgo en los datos En este vídeo, Google, que recibió tantas críticas por el sesgo racista de su algoritmo de detección de imágenes (en realidad el sesgo racista no lo tenía el algoritmo, sino los datos con los que había sido entrenado), nos explica de forma muy clara qué es el sesgo y cómo puede influir sobre una aplicación Machine Learning. ¿Cómo evitar problemas con los datos? Por ello, para evitar en la medida de los posible estos problemas, se hace necesario: Tener claros los objetivos y si tenemos los datos necesarios para conseguirlos.Dedicar el tiempo necesario para garantizar la calidad de los datos y tratar de eliminar las causas de error desde la raíz.Garantizar la trazabilidad de los datos en todo momento, manteniendo una copia de los datos de entrenamiento originales y los pasos dados en su procesamiento. Será muy útil para introducir mejoras en el proceso, así como para detectar posibles sesgos o limitaciones.Una vez productivizado el modelo, asegurarse de que exista un responsable que garantice el cumplimiento de los estándares de calidad de los datos de entrada del modelo.Efectuar auditorías independientes de calidad de forma regular A pesar de todos estos cuidados, los datos nunca son perfectos. Pero si queremos el que Machine Learning sea como la “piedra filosofal” que convierta nuestros datos en oro, necesitaremos, no sólo datos, sino datos buenos (¡y cuantos más mejor!). Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube. Plataformas y librerías para comenzar en el mundo del Machine LearningDomina los videojuegos clásicos con OpenAI y Machine Learning
Nacho Palou 5G: cuatro casos de uso reales y prácticos El último informe “La Sociedad Digital en España 2022” [1] de Fundación Telefónica confirma la consolidación de los procesos de digitalización en la sociedad española. En este sentido, cabe...
Nacho Palou Cursos gratuitos online para aprender IoT (Internet de las Cosas) en 2023 Internet de las Cosas (IoT) es una de las tecnologías digitales de nueva generación con un impacto significativo en múltiples sectores, desde la industria a la agricultura, pasando por...
Fran Ramírez Mujeres que cambiaron las Matemáticas Por Fran Ramírez y Fran Fenoll Aprovechando que en marzo también se celebra el día Internacional de las Matemáticas, hemos querido rendir con esta recopilación un pequeño homenaje a mujeres que...
Nacho Palou #MujeresHacker de Telefónica Tech: Jess Woods, experta en Cloud Con motivo del Día de la Mujer, iniciamos una serie de entrevistas protagonizadas por #MujeresHacker de Telefónica Tech. Mujeres que, con su trabajo y esfuerzo, nos convierten en una...
Sergio Piorno Güemes Un nuevo paradigma financiero: la tokenización de activos En los últimos años se ha acelerado la digitalización del ecosistema financiero gracias a la adopción generalizada de internet y su consecuente desarrollo. Esto, junto con el auge de los dispositivos móviles,...
Nacho Palou MWC: Todas las innovaciones y el conocimiento experto que hemos compartido Después de cuatro intensos días, Mobile Word Congress (MWC) 2023 se despide hoy hasta el año que viene. Desde el pasado lunes, los asistentes han tenido ocasión de ver...