Data Science: ¿Cómo hacer las preguntas adecuadas?Paloma Recuero de los Santos 12 diciembre, 2019 Cuando hablamos de Ciencia de Datos, o de Aprendizaje Automático, solemos hablar de datos, algoritmos, modelos, etc. Y no nos damos cuenta de que, quizás, hemos pasado»de puntillas» por una de las fases más relevantes de todo el proceso: plantear las preguntas adecuadas. Aunque parece ser que Albert Einstein jamás pronunció esta frase, bien podría haberlo hecho, porque refleja una gran verdad: la importancia de definir claramente cuál es el problema que queremos resolver antes de lanzarnos a buscar respuestas. «Si tuviera sólo una hora para salvar el mundo, pasaría cincuenta y cinco minutos definiendo las preguntas, y sólo cinco minutos encontrando las respuestas» En la era de los datos, seguimos lanzándonos a la búsqueda de respuestas, sin habernos detenido lo suficiente a la hora de plantear las preguntas, sin haber definido claramente cuáles son los problemas prioritarios. En lugar de preguntarnos: ¿Qué pregunta identifica nuestro problema? o ¿qué datos necesitamos para resolverla?, lo hacemos al revés. ¿Qué datos tenemos? o ¿a qué datos podemos acceder?. Esto es la causa de que, en muchas ocasiones, las iniciativas basadas en datos no obtengan los resultados esperados. Lo cierto es que muchos gobiernos, empresas, o comunidades afrontan problemas muy similares que pueden resolverse mediante iniciativas de datos e inteligencia artificial. Sin embargo, carecen de los recursos para identificar cuáles son realmente las cuestiones que merecen su atención e inversión. Las 100 preguntas Para dar respuesta a esta situación, The GovLab, un centro de investigación de la Universidad de Nueva York, ha lanzado recientemente el proyecto «100 Questions inititative». El objetivo de este proyecto es identificar, de forma participativa, las preguntas más relevantes, y aprender a priorizar aquéllas que son de mayor impacto, más novedosas o más factibles. ¿Quién hace las preguntas? Se basa en identificar, y formar perfiles conocidos como «bilingües» (bilinguals). Son expertos que combinan conocimientos en alguno de los dominios definidos en el proyecto, con conocimientos en tecnología y ciencia de datos. Su objetivo es mejorar la vida de las personas y resolver problemas de interés público mediante la ciencia de datos. Lo dominios de conocimiento definidos son los siguientes: migracionesigualdad de génerocambio climáticotrabajo futurorespuesta a desastresinclusión financierasalud globaleducación ¿Con qué criterios se plantean? Hay dos criterios fundamentales a la hora de elegir las preguntas. El primero, su impacto. Deben ser preguntas cuyas respuestas puedan cambiar la vida de las personas, o bien permitir importantes avances en algún campo científico. El segundo criterio básico, es que la respuesta a estas preguntas pueda basarse en datos. Se pueden considerar otros criterios, como por ejemplo, la claridad, o la originalidad. Categorías de preguntas A partir de estos criterios, se definen 4 categorías de preguntas que pueden ayudarnos a cambiar la forma en que enfocamos los problemas que nos atañen. Análisis de la situación: Preguntas relacionadas con una mejor comprensión de las tendencias y la distribución geográfica de los fenómenos (a menudo en tiempo real). Causa y efecto: Preguntas que pueden ayudar a las partes interesadas a comprender mejor los factores clave y las consecuencias de una situación. Esta categoría busca establecer qué variables pueden marcar la diferencia para un problema determinado. Predicción: Preguntas que interrogan las nuevas capacidades de predicción que permitirían a las partes interesadas evaluar los riesgos, las necesidades y las oportunidades futuras. Evaluación de impacto: Estas preguntas que tratan de determinar los resultados (positivos o negativos) de varias intervenciones. ¿Cómo pasar de «data-driven» a «question-driven»? Para poder completar con éxito el proceso extremo a extremo, es decir, de las preguntas a los datos, y del conocimiento a la acción, es fundamentar alcanzar compromisos con los diferentes actores implicados. En primer lugar, la participación pública, a través de encuestas abiertas, garantiza la pertinencia y legitimidad de las preguntas. Es decir, que se trate de «problemas reales» para las personas y sus comunidades. También resulta fundamental colaborar con los titulares de los datos para garantizar su disponibilidad y accesibilidad. Por último, es importante mantener una conversación fluida y continua con los «dueños del problema», ya sea en el gobierno, el sector privado o la sociedad civil, que permita emprender acciones a partir de los insights obtenidos tras el análisis de los datos. Conclusión Los datos no nos van a decir nada interesante, a menos que sepamos hacerles las preguntas adecuadas. Esta máxima, no es exclusiva de la Ciencia de Datos. Se puede aplicar a cualquier problema al que nos enfrentemos como personas, como empresas, como instituciones o como gobiernos. «Tus datos son tan valiosos como bien planteadas estén las preguntas que les hagas» Gracias a iniciativas como esta, individuos, empresas, instituciones y gobiernos tendrán más fácil la definición de las preguntas clave para la resolución de sus problemas y podrán pasar de ser “data-driven” a “question-driven”. Referencias: Raw data won’t solve our problems — asking the right questions will Para mantenerte al día con LUCA, visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn o YouTube. ¡Que la fuerza te acompañe LEIA!¿Conoces la nueva Plataforma Self-Service de LUCA Advertising?
Olivia Brookhouse ¿Puede la Inteligencia Artificial entender las emociones? Cuando John McCarthy y Marvin Minsky iniciaron la Inteligencia Artificial en 1956, se sorprendieron de cómo una máquina podía resolver rompecabezas increíblemente difíciles en menos tiempo que los humanos. Sin...
Javier Martínez Borreguero Automatización, Conectividad e Inteligencia Aumentada al servicio de una reindustrialización competitiva, disruptiva y sostenible Por segundo año consecutivo vuelvo a participar en el Advanced Factories (AF 2023), la mayor exposición y congreso profesional dedicado a la Industria 4.0 del sur de Europa. Un...
Nacho Palou Medidas para reducir la brecha digital de género sin esperar 32 años El informe Sociedad Digital en España 2023, de Fundación Telefónica, dedica un apartado específico para analizar la brecha de género en el ámbito del talento digital. Destaca que, si bien...
Nacho Palou Raspberry Pi para Edge AI: Inteligencia Artificial en el borde para todos Raspberry Pi es un popular ordenador muy utilizado entre desarrolladores, estudiantes y aficionados a la informática, a la robótica y a ‘cacharrear’. Entre sus virtudes están su bajo coste...
Carlos Lorenzo Ya no eres solo una empresa de productos o servicios, eres una empresa de datos Todas las empresas que operan en la actualidad son en realidad empresas de datos. Y lo son porque día a día almacenan y utilizan una gran cantidad de información:...
Jorge Rubio Álvarez Inteligencia Artificial aplicada a la Ciberseguridad industrial (OT) La Ciberseguridad en los entornos industriales u OT (Operational Technology) es crucial para proteger infraestructuras críticas como la energía, el transporte y la comunicación. Una preocupación cada vez mayor...