El método de los mínimos cuadrados con Despacito

stats con chris
2022-03-27
0

...

I. Introducción: Los datos

En el artículo: "La extrapolación lineal para predecir el futuro de Despacito", pronosticamos la fecha en que Despacito se convierte en el video más visto en Youtube. Aquí profundizaremos dicho estudio compartiendo todos los cálculos matemáticos, los cuales se basan en el método de los mínimos cuadrados. Para entender los orígenes de este método se requiere comprender el cálculo diferencial. En caso lo desconozcas te sugiero saltar a la página 4 donde directamente aplicamos el método. Los pasos numéricos fueron programados en Python (Jupyter Notebook). Para reproducir los resultados puedes descargar el archivo de mi repositorio de Github.

En el artículo mostramos los resultados de las 5 canciones más vistas en Youtube. En este tutorial, para simplificar el análisis, nos enfocamos en Despacito y See You Again. Como primer paso, recolectamos datos del número de vistas en Youtube para cada canción. Lo hacemos cada 24 horas entre el 4 y 9 de julio. Obtenemos 6 valores dados en la siguiente tabla:

Tabla I: Total de vistas acumuladas (millones).
Día
($x$)
Despacito
($y$)
See You Again
($z$)
4 2310 2872.8
5 2328 2875.9
6 2348 2879.0
7 2369 2882.2
8 2393 2885.7
9 2415 2889.0

El objetivo es hallar la ecuación de la recta que mejor se ajuste a estos valores. Enfoquémonos en Despacito $(d)$, cuya ecuación de la recta viene dada por,

$$y_{d} = m_d x + b_d. \tag 1$$

Esta recta, necesariamente no pasará por los 6 valores dados en la Tabla I porque estos no describen una recta perfecta, entonces existirá un error. Si $y$ corresponde a los datos reales e $y_d$ corresponde a los datos de la ecuación de la recta, entonces el error vendrá dado por la diferencia, $y_d-y$. No obstante, debido a que un error como tal puede otorgar valores positivos y también negativos, será conveniente elevarlo al cuadrado, i.e.,

$$\begin{align}\xi &=\sum_i^n (y_{d_i}-y_i)^2, \\ &= \sum_i^n (m_{d} x_i+ b_{d}  - y_i)^2.\tag 2\end{align}$$

$\xi$ representa el error total, el cual viene dado por la suma sobre todos los puntos, es decir, $n=6$ para el caso dado en la Tabla I. Lo ideal sería hallar una recta cuyo error total sea cero, pero es imposible, como ya dijimos, la recta no pasará por todos los puntos, entonces lo que buscamos hallar es el mínimo error y como este viene dado al cuadrado, es por eso que lo llamamos el método de los mínimos cuadrados.  En nuestro caso, si la ecuación de la recta está definida por las variables $m_d$ y $b_d$, entonces tenemos que hallar los valores de $m_d$ y $b_d$ tal que otorguen el mínimo valor posible para $\xi$. Matemáticamente, haciendo uso del cálculo diferencial, estos valores se obtienen hallando la primera derivada de $\xi$ e igualándola a cero, i.e.,

$$\begin{align}\frac{\partial \xi}{\partial m_{d}}=0, ~~~ \frac{\partial \xi}{\partial b_{d}}=0.\tag 3\end{align}$$

La resolución de las ecuaciones dadas en (3) aparece descrita en la siguiente página.

Vistas: 1 Github

stats con chris

Un escritor que aprendió a sumar

Un escritor que aprendió a sumar

Notificaciones

Recibe los nuevos artículos en tu correo electrónico

2022 © nepy

Un solo aliento

Configurar

Elige tu propio estilo

Color

Elige el modo que sea de tu agrado


Posición del Navegador

Elige el sistema de navegación


Estilo del Navegador

Elige el estilo del navegador vertical

Personalizar