Las matemáticas del Machine Learning: explicando la Regresión Lineal (I)

Fran Ramírez  20 marzo, 2019
Como ya contamos en nuestro anterior post, vamos a comenzar una serie de artículos para explicar de la manera más sencilla posible, las matemáticas que hay detrás de los principales algoritmos de Machine Learning. Pues ya tenemos el primero de la serie dedicado esta vez a uno de los más populares: la Regresión Lineal.

¿Qué es y para qué se utiliza el método de Regresión Lineal?

 
El método de Regresión Lineal es una relación entre dos tipos de variables, las variables independientes o explicativas (x1, x2, x3,…) y la variable dependiente o respuesta (y). Lo cual nos permitirá obtener una predicción de la variable dependiente o respuesta en función de los valores adquiridos de la variable independiente.

Figura 1. Regresión Lineal con una variable dependiente y otra independiente. Fuente.

 
Un ejemplo podría ser la estimación del valor de un piso en función del tiempo, dimensiones, número de habitaciones,… otro ejemplo donde podemos utilizar el método de Regresión Lineal es para detectar si un paciente presenta un tumor, saber si el carácter de este es benigno o maligno mediante las variables sexo, edad, tamaño del tumor, etc.

¿Qué tipos de Regresión Lineal existen? 

 

Dependiendo del número de variables independientes, estaremos hablando de un método de Regresión Lineal simple o de un método de Regresión Lineal múltiple.

Regresión Lineal Simple.


Una Regresión Lineal simple es una relación entre una variable dependiente y una variable independiente, mediante la siguiente expresión:

Esta expresión es una ecuación de una recta, donde m es la pendiente y n es la ordenada en el origen. También podemos encontrarla o escribirla como:

Los parámetros β0 y β1 son conocidos como la ordenada y la pendiente, y reciben el nombre de coeficientes de la recta de regresión. Si la ecuación de la recta de regresión la obtenemos a partir de una muestra y no de la población, entonces los coeficientes son estadísticos y no parámetros.
Donde ϵ, es lo que denominamos perturbación o error aleatorio. Entendemos que ϵ=YR-YA, es decir la diferencia entre el valor real y el valor aproximado.
Tal y como hemos mencionado anteriormente este método nos permite obtener una respuesta o predicción gracias al conocimiento de una variable. Para calcularla, basta que, una vez conocidos los parámetros, sustituyamos el valor que toma la variable X y obtengamos un valor Y, que será nuestra respuesta o predicción. De lo que se trata es obtener un ϵ que se aproxime a 0. Para ello utilizaremos lo que se conoce como método mínimos cuadrados, este método consiste en minimizar la suma de los cuadrados de los errores:
Obtener los coeficientes de la recta a través de una muestra.

Imaginemos que tenemos las siguientes gráficas, cada una de ellas corresponde a diferentes muestras de diferentes problemas:
Una vez tenemos nuestra nube de puntos, hemos de encontrar una recta que se aproxime lo máximo posible a dicha muestra. Por lo tanto, solo podemos obtener una recta de Regresión Lineal en la primera y última nube de puntos. Para encontrar dicha recta utilizaremos el mencionado anteriormente método de mínimos cuadrados.
Ahora bien, para encontrar los valores de β0 y β1, aplicamos las siguientes ecuaciones matemáticas:
Siendo

las medias muestrales de X e Y, σx^2 es la varianza de X, y σxy es la covarianza muestral entre X e Y.

Si en vez de querer obtener la recta de regresión de Y sobre X, queremos obtener la recta de regresión de X sobre Y, será la recta que viene dada por la expresión:

Siendo:

Coeficiente de Correlación.


El coeficiente de correlación entre X e Y, viene dado por la siguiente expresión:

Al cuadrado de dicha expresión se le conoce como coeficiente de determinación. El coeficiente de correlación trata de medir la dependencia lineal que existe entre ambas variables, por lo tanto cuando su valor sea más próximo a 1 será más directo, y cuando su valor sea más próximo a -1 será más inverso. En otras palabras el coeficiente de correlación mide la proximidad de nuestra recta ajustada con los valores muestrales de Y.

En la segunda parte de este artículo sobre Regresión Lineal Simple veremos un ejemplo práctico así como evaluar y contrastar las hipótesis, es decir cuando aceptarlas o cuando rechazarlas.

¡No te lo pierdas!
Escrito por Fran Fenoll (@ffenoll16), Fran Ramírez (@cyberhadesblog) y Enrique Blanco (@eblanco_h) ambos del equipo de Ideas Locas CDO de Telefónica.

Para mantenerte al día con LUCA visita nuestra página web,  suscríbete a LUCA Data Speaks o síguenos en TwitterLinkedIn YouTube.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *