Fran Ramírez Las matemáticas del Machine Learning: Números aleatorios y dónde encontrarlos (Parte I) ¿Cuántas veces a la hora de repartir algo con los amigos/as hemos dicho: “piensa en un número del 1 al 10”? ¿La respuesta es realmente aleatoria? Si utilizamos una...
Paloma Recuero de los Santos ENIA, la nueva Estrategia Nacional sobre IA Desde el pasado 2 de diciembre, España cuenta con una nueva Estrategia Nacional de Inteligencia Artificial, ENIA, dotada con un presupuesto de 600 millones de euros para medidas relacionadas...
Paloma Recuero de los Santos Nuestros favoritos de Abril: 5 post del sector que no puedes perderte Empezamos un recopilatorio mensual de los 5 post que nos han parecido más interesantes sobre Data Science, Big Data, Machine Learning e IA publicados este mes en la web....
Paloma Recuero de los Santos Tus datos más limpios (III y fin): Probando Trifacta Wrangler En éste tercer y último post de la serie sobre Datacleaning vamos a ver la diferencia entre trabajar con una herramienta más generalista, como es Excel a hacerlo con...
LUCA Una solución para adaptar la flota de vehículos frente a la COVID-19 y la tormenta Filomena La movilidad es un aspecto clave tanto en el día a día de las ciudades como en las situaciones excepcionales que hemos experimentado en el último año por la...
LUCA Caso de éxito: Departamento de Transporte de UK El Departamento de Transporte es el organismo gubernamental responsable de la mayor parte de la red de transporte del Reino Unido. Nuestro cliente necesitaba entender rápidamente los patrones de...
LUCA ¿Cómo ha afectado a los usuarios de Metro de Madrid el cierre temporal de la Línea 5? Metro de Madrid está acometiendo importantes mejoras en su red de transporte. Este año, la Línea 5 que une las zonas de Sudoeste-Noreste de la capital, ha sido la...
LUCA Quito, la primera ciudad inteligente de America Latina ¿Cuántas personas cogen el metro al día? ¿En que paradas se bajan? ¿Cuánto tiempo tardan en llegar a su destino? Todas estas preguntas podrán ser respondidas gracias a la alianza...
Paloma Recuero de los Santos Video Post #10: IoT y Big Data ¿Qué tienen que ver? ¿Cómo afecta la revolución digital a la vida de las personas?. Porque, en un principio, los avances tecnológicos estaban relacionados con el mundo de la investigación científica, la innovación...
LUCA LUCA Talk: Roles profesionales en el mundo del Big Data En el mundo del Big Data y la Inteligencia Artificial, hay muchísimos roles de donde elegir, que requieren distintas habilidades, y es habitual tener muchas dudas si no se...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Paloma Recuero de los Santos Video Post #18: Atrévete con Deep Learning. Principios básicos al alcance de todos ¿Sabes qué es el Deep Learning, en qué se basa y qué aplicaciones tiene? En este vídeo te daremos unas sencillas nociones que te ayudarán a comprender esta potente...
LUCA Talk: Prediciendo el crimen en Nueva York con Big DataLUCA 12 abril, 2018 ¿Recuerdas Minority Report, la película de Steven Spielberg y Tom Cruise? Trataba de una división de la policía llamada PreCrimen, que con la ayuda de tres mutantes tenía visiones del futuro y la habilidad de detener un crimen antes de que este ocurriera. Aunque la realidad no es igual que en las películas, hoy en día con el uso del Big Data, también se pueden predecir crímenes en ciudades grandes. La ciudad de Nueva York siempre ha llamado mucho la atención, no solo por ser centro de negocios, moda y cultura, sino también por ser bastante innovadora. Por esta razón, es la ciudad idónea para este proyecto tan interesante liderado por Santiago Gónzalez, el Director de Tecnologías e Innovación de Synergic Partners, el área de consultoría estratégica y tecnológica de LUCA y desarrollado en colaboración con la Columbia University y el Ayuntamiento de Nueva York. El webinar de este pasado 10 de abril fue todo un éxito y con la presentación interactiva de Santiago González se pudieron ver los modelos analíticos utilizados en el proyecto, y qué factores se tomaban en cuenta para obtener resultados. El clima, la hora del día y el tráfico, por ejemplo, marcaban una diferencia en cuanto al nivel de crimen. En días de mucho tráfico, el NYPD se encuentra controlando ciertas calles, y hay menos posibilidades de que puedan llegar con rapidez a la escena de un robo. También se mostró un mapa interactivo de la ciudad, donde destacaba Brooklyn como la zona donde se observa más actividad criminal y Staten Island por ser la más segura. A continuación, Santiago González responde las preguntas que nos dejaron en el chat del webinar, y que, debido al gran volumen, no se pudieron responder en directo. ¿Podría ser un factor de delito a tener en cuenta la apertura o cierre de negocios donde se suele robar? ¿Esto alteraría las estadísticas de delitos de esa zona concreta? Ese tipo de delitos no está contemplado dentro del estudio de crímenes, y creo que las fuentes asociadas a este crimen son diferentes a las que hemos usado. Hemos intentado usar las fuentes que, de alguna manera, tienen relación causa-efecto con el comportamiento humano ante un crimen (¡y faltan muchas otras fuentes! sobre todo para crímenes pasionales). Pero para el caso de cierre de negocios, habría que analizar movimientos de shopping, competencias, interés público, blanqueo de capitales, etc. ¿Qué posibilidad hay de aplicar este modelo en otras ciudades? Como tal, el modelo puede ser directamente aplicable si y solo si existe en esa ciudad el concepto de precinto policial (zona controlada por una estación de policía). En caso contrario, habría que modificar el modelo y analizar la granularidad de los datos, para ver cómo enfocar la posible predicción. ¿Las bases de datos sólo las habéis obtenido del Data Open Source de New York? ¿Habéis tenido en cuenta el factor cultural a la hora de la clasificación de las variables? Open Data New York (http://opendata.cityofnewyork.us/), es el origen de la gran mayoría de fuentes. Otras fuentes (como el NY Times) se saca directamente del servicio Open. Pero todas son Open Data. Si como factor cultural te refieres a cómo influye la información sociodemográfica al resto de variables, sí. Es algo muy interesante de analizar, ya que afecta directa e indirectamente sobre la clasificación de “crimen” y de “no crimen”. Cosas como que, por ejemplo, un criminal de una determinada característica étnica, racial o social no actúa sobre otros iguales en zonas de su clase social. En la comparación de todos los modelos ¿cuál es el modelo que se eligió para entrenarlo con los datos? El mejor, con diferencia, tanto en estabilidad a lo largo del tiempo como en resultados, es el XGBoost. Pensaba que las series temporales ARIMA & family iban a dar buenos resultados, pero me equivoqué… ¿Cuál es la “resolución” en tiempo y espacio para la predicción del crimen? En espacio es un precinto policial (aproximadamente 1,3km de radio a la redonda) y en cuanto al tiempo, es periodos de una hora (por ej. de 12 a 13). Para asegurar calidad en el modelo, recomendamos desde Synergic que no se predigan ventanas de tiempo de más de 1 mes. ¿Los datos con los que habéis entrenado el modelo son oficiales de la policía de New York? ¿Y qué tipo de datos os han proporcionado? Si, son totalmente oficiales. Es más, al principio los datos los sacamos del portal Open Data. Pero como tardaban en subir datos, luego directamente nos pasaba la propia Policía cada mes. Tal cual lo que viene en el portal Open Data es lo que teníamos, echad un vistazo a este enlace. ¿Qué opinas de la realización de perfiles psicográficos a través de Big Data (Cambridge Analytica) para la prevención de conductas violentas? Siempre que seamos capaces de generar perfiles tipo que representen los patrones de conducta de criminales a partir de redes sociales, y NOSOTROS no seamos (o no queramos ser) capaces de inferir que personas son las que representan dichos patrones, estoy de acuerdo con utilizar este enfoque. Quiero decir que, nuestro objetivo no es inferir las personas, sino ayudar a la policía a que los infieran ellos. Para nosotros, TODOS los datos deben ser anónimos, agregado y el modelo de inferencia, a poder ser, basarse en Sistemas Basados en el Conocimiento (KBS) de clasificación heurística o jerárquica con procesos de abstracción. Fuera de esto, mi opinión es que el creador del dato (cada persona que genera la información sobre su vida) es el propietario del mismo y el que debe dar permiso o no de usarse para terceros. Estad atentos a nuestros canales (Página de Eventos, blog, y RRSS) para la convocatoria de nuestro próximo webinar. Usando datos para gestionar situaciones de emergenciaEsta semana en el blog de LUCA: (9 al 15 de Abril)
Fran Ramírez Las matemáticas del Machine Learning: Números aleatorios y dónde encontrarlos (Parte I) ¿Cuántas veces a la hora de repartir algo con los amigos/as hemos dicho: “piensa en un número del 1 al 10”? ¿La respuesta es realmente aleatoria? Si utilizamos una...
LUCA Una solución para adaptar la flota de vehículos frente a la COVID-19 y la tormenta Filomena La movilidad es un aspecto clave tanto en el día a día de las ciudades como en las situaciones excepcionales que hemos experimentado en el último año por la...
Francisco Javier Viñas Plaza El gobierno del almacenamiento como palanca de la innovación La Oficina de Dato es un agente de cambio e innovación en una organización. Convierte el gobierno del almacenamiento en una auténtica palanca de la innovación. Veamos el por...
Paloma Recuero de los Santos ENIA, la nueva Estrategia Nacional sobre IA Desde el pasado 2 de diciembre, España cuenta con una nueva Estrategia Nacional de Inteligencia Artificial, ENIA, dotada con un presupuesto de 600 millones de euros para medidas relacionadas...
LUCA LUCA Talk: Blockchain para garantizar la trazabilidad de vacunas FORMATO: Charla de 30 minutos + Q&A de 10 minutosCUÁNDO: 20 de enero, 16:00 h (CET)CÓMO: Inscripción gratuita en eventbrite Trazabilidad es una de las características que vienen a nuestra...
Enrique Blanco Clustering de series temporales con Python La proliferación y la ubicuidad de los datos con dependencia temporal en un amplio abanico de disciplinas genera un interés sustancial en el análisis y la extracción de series...