Data Science: ¿Cómo hacer las preguntas adecuadas?

Paloma Recuero de los Santos    12 diciembre, 2019
Periodista en rueda de prensa.

Cuando hablamos de Ciencia de Datos, o de Aprendizaje Automático, solemos hablar de datos, algoritmos, modelos, etc. Y no nos damos cuenta de que, quizás, hemos pasado”de puntillas” por una de las fases más relevantes de todo el proceso: plantear las preguntas adecuadas.

Aunque parece ser que Albert Einstein jamás pronunció esta frase, bien podría haberlo hecho, porque refleja una gran verdad: la importancia de definir claramente cuál es el problema que queremos resolver antes de lanzarnos a buscar respuestas.

“Si tuviera sólo una hora para salvar el mundo, pasaría cincuenta y cinco minutos definiendo las preguntas, y sólo cinco minutos encontrando las respuestas”

En la era de los datos, seguimos lanzándonos a la búsqueda de respuestas, sin habernos detenido lo suficiente a la hora de plantear las preguntas, sin haber definido claramente cuáles son los problemas prioritarios. En lugar de preguntarnos: ¿Qué pregunta identifica nuestro problema? o ¿qué datos necesitamos para resolverla?, lo hacemos al revés. ¿Qué datos tenemos? o ¿a qué datos podemos acceder?. Esto es la causa de que, en muchas ocasiones, las iniciativas basadas en datos no obtengan los resultados esperados.

Lo cierto es que muchos gobiernos, empresas, o comunidades afrontan problemas muy similares que pueden resolverse mediante iniciativas de datos e inteligencia artificial. Sin embargo, carecen de los recursos para identificar cuáles son realmente las cuestiones que merecen su atención e inversión.

Las 100 preguntas

Para dar respuesta a esta situación, The GovLab, un centro de investigación de la Universidad de Nueva York, ha lanzado recientemente el proyecto “100 Questions inititative”.

El objetivo de este proyecto es identificar, de forma participativa, las preguntas más relevantes, y aprender a priorizar aquéllas que son de mayor impacto, más novedosas o más factibles.


¿Quién hace las preguntas?

Se basa en identificar, y formar perfiles conocidos como “bilingües” (bilinguals). Son expertos que combinan conocimientos en alguno de los dominios definidos en el proyecto, con conocimientos en tecnología y ciencia de datos. Su objetivo es mejorar la vida de las personas y resolver problemas de interés público mediante la ciencia de datos.

Lo dominios de conocimiento definidos son los siguientes:

  • migraciones
  • igualdad de género
  • cambio climático
  • trabajo futuro
  • respuesta a desastres
  • inclusión financiera
  • salud global
  • educación

¿Con qué criterios se plantean?

Hay dos criterios fundamentales a la hora de elegir las preguntas. El primero, su impacto. Deben ser preguntas cuyas respuestas puedan cambiar la vida de las personas, o bien permitir importantes avances en algún campo científico. El segundo criterio básico, es que la respuesta a estas preguntas pueda basarse en datos.

Se pueden considerar otros criterios, como por ejemplo, la claridad, o la originalidad.

Categorías de preguntas

A partir de estos criterios, se definen 4 categorías de preguntas que pueden ayudarnos a cambiar la forma en que enfocamos los problemas que nos atañen.

  • Análisis de la situación: Preguntas relacionadas con una mejor comprensión de las tendencias y la distribución geográfica de los fenómenos (a menudo en tiempo real).
  • Causa y efecto: Preguntas que pueden ayudar a las partes interesadas a comprender mejor los factores clave y las consecuencias de una situación. Esta categoría busca establecer qué variables pueden marcar la diferencia para un problema determinado.
  • Predicción: Preguntas que interrogan las nuevas capacidades de predicción que permitirían a las partes interesadas evaluar los riesgos, las necesidades y las oportunidades futuras.
  • Evaluación de impacto: Estas preguntas que tratan de determinar los resultados (positivos o negativos) de varias intervenciones.

¿Cómo pasar de “data-driven” a “question-driven”?

Para poder completar con éxito el proceso extremo a extremo, es decir, de las preguntas a los datos, y del conocimiento a la acción, es fundamentar alcanzar compromisos con los diferentes actores implicados.

En primer lugar, la participación pública, a través de encuestas abiertas, garantiza la pertinencia y legitimidad de las preguntas. Es decir, que se trate de “problemas reales” para las personas y sus comunidades.

También resulta fundamental colaborar con los titulares de los datos para garantizar su disponibilidad y accesibilidad.

Por último, es importante mantener una conversación fluida y continua con los “dueños del problema”, ya sea en el gobierno, el sector privado o la sociedad civil, que permita emprender acciones a partir de los insights obtenidos tras el análisis de los datos.

Conclusión

Los datos no nos van a decir nada interesante, a menos que sepamos hacerles las preguntas adecuadas. Esta máxima, no es exclusiva de la Ciencia de Datos. Se puede aplicar a cualquier problema al que nos enfrentemos como personas, como empresas, como instituciones o como gobiernos.

“Tus datos son tan valiosos como bien planteadas estén las preguntas que les hagas”

Gracias a iniciativas como esta, individuos, empresas, instituciones y gobiernos tendrán más fácil la definición de las preguntas clave para la resolución de sus problemas y podrán pasar de ser “data-driven” a “question-driven”.

Referencias: Raw data won’t solve our problems — asking the right questions will

Para mantenerte al día con LUCA, visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *