Las Matemáticas del Machine Learning: Ejemplos de Regresión Lineal (III) y Multilineal. Contraste y fiabilidad.

Fran Ramírez    26 junio, 2019
Imagen de un mosquito

Seguimos con esta serie en la cual intentamos que todos/todas perdamos el miedo a  las matemáticas en el Machine Learning. En esta tercera y última parte sobre la Regresión Lineal y Multilineal vamos a hablar sobre el concepto teórico de fiabilidad y contraste desde el punto de vista teórico. No os preocupéis si este es un poco denso (es necesario asimilar un poco de teoría) ya que en el siguiente artículo publicaremos una implementación práctica del ejemplo aplicando todos estos conceptos en el lenguaje de programación “R”

Ahora que ya tenemos una estimación (ver los artículos anteriores), procederemos a buscar una fiabilidad, un contraste para ver si en definitiva, se cumple o no la premisa que hayamos definido sobre nuestro modelo a estudiar. En el anterior artículo vimos la definición de la expresión de regresión lineal múltiple, además de cómo obtener los estimadores a partir de los datos de una muestra aleatoria. También dimos un ejemplo del recuento de población de un parásito, y de cómo al parecer las variables temperatura y humedad influían en el recuento de dicha especie. 

En resumen, el modelo estimado que predice para la observación i-ésima es:

Modelo estimado

Y el error de predicción:

Error de predicción

El cual su media y varianza expresa una distribución normal.

Matricialmente llegamos a: 

O bien:

Representación matricial

Llegando a la siguiente conclusión:

Conclusión

Ahora bien, como estimador de la varianza del error se puede emplear:

Estimación de la Varianza

Aplicándola a nuestro ejemplo, obtenemos:

Resultado de la Varianza aplicada al ejemplo de artículos anteriores

Por lo que tendremos una desviación típica: 

Desviación típica

Veamos qué información nos aporta β ̂, sabemos que el vector de observaciones Y, se distribuye siguiendo una distribución Normal Multivariante:

Distribución Normal Multivariante

Dado que β ̂ es una combinación lineal de las componentes del vector Y, por lo que podemos afirmar que se distribuye según una variable aleatoria Normal. 


¿Qué podemos decir acerca su media y matriz de varianza y covarianza?

Consideramos que:

Por lo tanto tenemos que reescribir β ̂ como:

Por lo tanto podemos afirmar que:

Donde dii
 es el elemento i-ésimo de la diagonal de la matriz (X^T X)^(-1).

Además, podemos concluir que:

Conclusión

Siendo la Varianza Residual:

Varianza Residual

Y por otro lado:

Error estándar de β ̂i

Contraste de Hipótesis:

Si suponemos que se cumple el modelo de regresión lineal, queremos saber si dicho modelo es explicativo o no, y para ello vamos a explicar ahora lo que se conoce como contraste de hipótesis e intervalos de confianza. 
Consideramos H0 como la hipótesis nula, ninguna de las variables explicativas influye en la variable respuesta Y, es decir, que en caso de aceptar dicha hipótesis nuestro modelo no será explicativo. 

Modelo no explicativo

Del mismo modo consideramos H1 como el rechazo de la hipótesis nula, es decir, si existe al menos una variable explicativa que influye en la variable respuesta, entonces el modelo es explicativo.

Modelo explicativo

La variabilidad de toda la muestra se denomina variabilidad total (VT), y esta se compone de la explicada (VE) y de la no explicada por la regresión (VNE).

Variabilidad de la muestra completa

En nuestro ejemplo tenemos que la variabilidad total es: 

VT = 3650.192 + 343.542 = 3993.734

Definimos el coeficiente de determinación (R^2=VE/VY) como el porcentaje de variabilidad de Y que explica el modelo de regresión ajustado, dicho en otras palabras, la proporción de variabilidad de la variable dependiente que es explicada por la regresión. Definido de esta manera el coeficiente nos puede presentar un problema, al introducir nuevas variables, sean o no significativas su valor aumenta, por lo que no nos resulta útil la información que muestra el coeficiente para decidir si qué variables explicativas son incluidas o excluidas del modelo. Por lo que para evitar este problema definimos el coeficiente de determinación corregido de la siguiente forma:

Corrección del coeficiente de determinación

A continuación calcularemos el estadístico F:

Estadístico F

Bajo la hipótesis nula:

El estadístico F sigue una distribución de probabilidad:

F de Snedecor con (p,n-p-1) grados de libertad.

Veamos ahora otros contrastes, hemos mencionado anteriormente que

sigue una distribución normal, pero además, si la estandarizamos conseguiremos que siga una distribución N (0,1):

Una variable t de Student con k grados de libertad se define como:

Pues bien, para ver si una variable Xi  es significativa o no, nos basaremos en el contraste individual de la t de Student,:

De ser cierta la hipótesis nula, nuestra variable  no influiría sobre la variable respuesta. Así pues, si es cierto H0, el valor de t tiene que predecir de una:

Para n>30, esta distribución deja una probabilidad del 95% en el intervalo [-1.96, 1.96]. Por lo que si cuando calculamos |t|, este es mayor que 1.96, rechazaremos la hipótesis nula, y concluiremos que la variable i-ésima sí que influye en nuestra variable respuesta.Hablemos ahora de los intervalos de confianza, como hemos mencionado anteriormente, sabemos que:

por lo que a continuación afirmaremos:

Es decir,

Esto significa que con una confianza del 1-alpha:

Cuando n>30 y alpha=0.05, el intervalo se convierte en:

Y esto es todo por hoy ;). Recuerda que en el siguiente artículo (y final de la parte de Regresión), publicaremos la implementación de la resolución del ejercicio de ejemplo que hemos utilizado en el lenguaje de programación R.

¡No te lo pierdas!

Escrito por Fran Fenoll (@ffenoll16), Fran Ramírez (@cyberhadesblog y @cybercaronte) y Enrique Blanco (@eblanco_h) ambos del equipo de Ideas Locas CDO de Telefónica.

Artículos anteriores de esta serie:

Para mantenerte al día con LUCA visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *