Paloma Recuero de los Santos Data Science: ¿Cómo hacer las preguntas adecuadas? Cuando hablamos de Ciencia de Datos, o de Aprendizaje Automático, solemos hablar de datos, algoritmos, modelos, etc. Y no nos damos cuenta de que, quizás, hemos pasado”de puntillas” por...
Antonio Pita Lozano ¡Que la fuerza te acompañe LEIA! Son tiempos difíciles para la galaxia, la crisis financiera acecha a la unión y los estados periféricos imponen aranceles en su luchan con el control comercial. De forma silenciosa,...
Paloma Recuero de los Santos ¿Inteligencia Artificial o Cognitiva? En los últimos años el término “Inteligencia Artificial” parece estar perdiendo fuerza a favor de otros términos como “Inteligencia Cognitiva”, o “tecnologías smart”, “predictivas” etc. En este post analizamos...
Amaia Perez El Big Data ya combate el crimen en Nueva York Contenido original de Lourdes Tejedor, Community Manager y Editora en Telefónica. Una ciudad: Nueva York; un problema: la criminalidad. ¿Cómo atajarla? ¿Dónde y cuándo se da más? ¿Están bien situados...
LUCA Caso de éxito: Optimizando el plan de carreteras de Highways England La industria del transporte es una industria muy permeable a la aplicación de estrategias de Big Data e Inteligencia Artificial, ya que existen casos de uso claros para maximizar...
LUCA Incorporación de Big Data en el sector público: caso de éxito Navantia ¿Cuáles son los ingredientes principales para una transformación digital exitosa? La transformación digital se ha hecho indispensable en casi todos los sectores, también en la administración pública y, como hoy vamos...
Ana Zamora LUCA Tourism en el Festival del Globo en México El Festival Internacional del Globo (FIG) reúne cada año más de 200 globos que recorren el cielo del Parque Metropolitano de León, Guanajuato, en un espectáculo maravilloso. El evento es...
Paloma Recuero de los Santos Ciudades Inteligentes: Tutorial de Power BI sobre Open Data En este artículo, que publicaremos en dos post, hablaremos de Smart Cities y de cómo pueden utilizar sus datos para ser más “smart”. Trabajaremos con un dataset de ejemplo...
Paloma Recuero de los Santos Video Post #12: Perfiles de datos ¿Cuál es el tuyo? El mundo de los datos y su explotación por medio de técnicas de Machine Learning e Inteligencia Artificial es tan amplio que se hace necesario definir diferentes perfiles o...
Ane Urain LUCA Talk: Big Data y ciudades inteligentes, ¿ciencia o ficción? Las ciudades se están convirtiendo en entornos cada vez más complejos donde la gestión de grandes volúmenes de datos es cada vez más un requerimiento para mejorar los servicios...
LUCA LUCA Talk: La transformación empieza por la formación La transformación digital de las empresas empieza por el cambio cultural de las personas y no en la tecnología. De nada sirve apostar por tecnología más puntera como Machine...
Paloma Recuero de los Santos Video Post #14: “ScyPy, NumPy, Pandas…¿Qué librerías Python necesito? En esta nueva edición de LUCA video post, damos un paso más en nuestro aprendizaje de Python aprendiendo lo que son los módulos, y, en particular las...
Las Matemáticas del Machine Learning: Ejemplos de Regresión Lineal (III) y Multilineal. Contraste y fiabilidad.Fran Ramírez 26 junio, 2019 Seguimos con esta serie en la cual intentamos que todos/todas perdamos el miedo a las matemáticas en el Machine Learning. En esta tercera y última parte sobre la Regresión Lineal y Multilineal vamos a hablar sobre el concepto teórico de fiabilidad y contraste desde el punto de vista teórico. No os preocupéis si este es un poco denso (es necesario asimilar un poco de teoría) ya que en el siguiente artículo publicaremos una implementación práctica del ejemplo aplicando todos estos conceptos en el lenguaje de programación “R”. Ahora que ya tenemos una estimación (ver los artículos anteriores), procederemos a buscar una fiabilidad, un contraste para ver si en definitiva, se cumple o no la premisa que hayamos definido sobre nuestro modelo a estudiar. En el anterior artículo vimos la definición de la expresión de regresión lineal múltiple, además de cómo obtener los estimadores a partir de los datos de una muestra aleatoria. También dimos un ejemplo del recuento de población de un parásito, y de cómo al parecer las variables temperatura y humedad influían en el recuento de dicha especie. En resumen, el modelo estimado que predice para la observación i-ésima es: Modelo estimado Y el error de predicción: Error de predicción El cual su media y varianza expresa una distribución normal. Matricialmente llegamos a: O bien: Representación matricial Llegando a la siguiente conclusión: Conclusión Ahora bien, como estimador de la varianza del error se puede emplear: Estimación de la Varianza Aplicándola a nuestro ejemplo, obtenemos: Resultado de la Varianza aplicada al ejemplo de artículos anteriores Por lo que tendremos una desviación típica: Desviación típica Veamos qué información nos aporta β ̂, sabemos que el vector de observaciones Y, se distribuye siguiendo una distribución Normal Multivariante: Distribución Normal Multivariante Dado que β ̂ es una combinación lineal de las componentes del vector Y, por lo que podemos afirmar que se distribuye según una variable aleatoria Normal. ¿Qué podemos decir acerca su media y matriz de varianza y covarianza? Consideramos que: Por lo tanto tenemos que reescribir β ̂ como: Por lo tanto podemos afirmar que: Donde dii es el elemento i-ésimo de la diagonal de la matriz (X^T X)^(-1). Además, podemos concluir que: Conclusión Siendo la Varianza Residual: Varianza Residual Y por otro lado: Error estándar de β ̂i Contraste de Hipótesis: Si suponemos que se cumple el modelo de regresión lineal, queremos saber si dicho modelo es explicativo o no, y para ello vamos a explicar ahora lo que se conoce como contraste de hipótesis e intervalos de confianza. Consideramos H0 como la hipótesis nula, ninguna de las variables explicativas influye en la variable respuesta Y, es decir, que en caso de aceptar dicha hipótesis nuestro modelo no será explicativo. Modelo no explicativo Del mismo modo consideramos H1 como el rechazo de la hipótesis nula, es decir, si existe al menos una variable explicativa que influye en la variable respuesta, entonces el modelo es explicativo. Modelo explicativo La variabilidad de toda la muestra se denomina variabilidad total (VT), y esta se compone de la explicada (VE) y de la no explicada por la regresión (VNE). Variabilidad de la muestra completa En nuestro ejemplo tenemos que la variabilidad total es: VT = 3650.192 + 343.542 = 3993.734 Definimos el coeficiente de determinación (R^2=VE/VY) como el porcentaje de variabilidad de Y que explica el modelo de regresión ajustado, dicho en otras palabras, la proporción de variabilidad de la variable dependiente que es explicada por la regresión. Definido de esta manera el coeficiente nos puede presentar un problema, al introducir nuevas variables, sean o no significativas su valor aumenta, por lo que no nos resulta útil la información que muestra el coeficiente para decidir si qué variables explicativas son incluidas o excluidas del modelo. Por lo que para evitar este problema definimos el coeficiente de determinación corregido de la siguiente forma: Corrección del coeficiente de determinación A continuación calcularemos el estadístico F: Estadístico F Bajo la hipótesis nula: El estadístico F sigue una distribución de probabilidad: F de Snedecor con (p,n-p-1) grados de libertad. Veamos ahora otros contrastes, hemos mencionado anteriormente que sigue una distribución normal, pero además, si la estandarizamos conseguiremos que siga una distribución N (0,1): Una variable t de Student con k grados de libertad se define como: Pues bien, para ver si una variable Xi es significativa o no, nos basaremos en el contraste individual de la t de Student,: De ser cierta la hipótesis nula, nuestra variable no influiría sobre la variable respuesta. Así pues, si es cierto H0, el valor de t tiene que predecir de una: Para n>30, esta distribución deja una probabilidad del 95% en el intervalo [-1.96, 1.96]. Por lo que si cuando calculamos |t|, este es mayor que 1.96, rechazaremos la hipótesis nula, y concluiremos que la variable i-ésima sí que influye en nuestra variable respuesta.Hablemos ahora de los intervalos de confianza, como hemos mencionado anteriormente, sabemos que: por lo que a continuación afirmaremos: Es decir, Esto significa que con una confianza del 1-alpha: Cuando n>30 y alpha=0.05, el intervalo se convierte en: Y esto es todo por hoy ;). Recuerda que en el siguiente artículo (y final de la parte de Regresión), publicaremos la implementación de la resolución del ejercicio de ejemplo que hemos utilizado en el lenguaje de programación R. ¡No te lo pierdas! Escrito por Fran Fenoll (@ffenoll16), Fran Ramírez (@cyberhadesblog y @cybercaronte) y Enrique Blanco (@eblanco_h) ambos del equipo de Ideas Locas CDO de Telefónica. Artículos anteriores de esta serie: Las Matemáticas del Machine Learning ¿Qué debo saber?Las Matemáticas del Machine Learning: explicando la Regresión Lineal (I)Las Matemáticas del Machine Learning: Ejemplos de Regresión Lineal (II) y Multilineal. Para mantenerte al día con LUCA visita nuestra página web, suscríbete a LUCA Data Speaks o síguenos en Twitter, LinkedIn y YouTube. Descifra, la herramienta que permite encontrar el mejor lugar para un negocioLas mujeres hacker impulsan Aura, la Inteligencia Artificial de Telefónica
Paloma Recuero de los Santos Data Science: ¿Cómo hacer las preguntas adecuadas? Cuando hablamos de Ciencia de Datos, o de Aprendizaje Automático, solemos hablar de datos, algoritmos, modelos, etc. Y no nos damos cuenta de que, quizás, hemos pasado”de puntillas” por...
Antonio Pita Lozano ¡Que la fuerza te acompañe LEIA! Son tiempos difíciles para la galaxia, la crisis financiera acecha a la unión y los estados periféricos imponen aranceles en su luchan con el control comercial. De forma silenciosa,...
LUCA Caso de éxito: Optimizando el plan de carreteras de Highways England La industria del transporte es una industria muy permeable a la aplicación de estrategias de Big Data e Inteligencia Artificial, ya que existen casos de uso claros para maximizar...
LUCA LUCA Talk: La transformación empieza por la formación La transformación digital de las empresas empieza por el cambio cultural de las personas y no en la tecnología. De nada sirve apostar por tecnología más puntera como Machine...
Paloma Recuero de los Santos IA bajo el microscopio: meetup y entrega de Data Science Awards Spain 2019 El pasado 5 de diciembre, en el Auditorio del Espacio Fundación Telefónica, tuvo lugar el encuentro Inteligencia Artificial bajo el Microscopio, en el que se hizo...
Jesús Montoya Sánchez de Pablo Cómo transformar una compañía. Paso 2: conectar la tecnología con el negocio En una entrada anterior, presentamos la priorización de los casos de uso como el primer paso hacia la transformación de las compañías en el marco de un plan de...