I. Introducción: Los datos
En el artículo: "La extrapolación lineal para predecir el futuro de Despacito", pronosticamos la fecha en que Despacito se convierte en el video más visto en Youtube. Aquí profundizaremos dicho estudio compartiendo todos los cálculos matemáticos, los cuales se basan en el método de los mínimos cuadrados. Para entender los orígenes de este método se requiere comprender el cálculo diferencial. En caso lo desconozcas te sugiero saltar a la página 4 donde directamente aplicamos el método. Los pasos numéricos fueron programados en Python (Jupyter Notebook). Para reproducir los resultados puedes descargar el archivo de mi repositorio de Github.
En el artículo mostramos los resultados de las 5 canciones más vistas en Youtube. En este tutorial, para simplificar el análisis, nos enfocamos en Despacito y See You Again. Como primer paso, recolectamos datos del número de vistas en Youtube para cada canción. Lo hacemos cada 24 horas entre el 4 y 9 de julio. Obtenemos 6 valores dados en la siguiente tabla:
El objetivo es hallar la ecuación de la recta que mejor se ajuste a estos valores. Enfoquémonos en Despacito $(d)$, cuya ecuación de la recta viene dada por,
Esta recta, necesariamente no pasará por los 6 valores dados en la Tabla I porque estos no describen una recta perfecta, entonces existirá un error. Si $y$ corresponde a los datos reales e $y_d$ corresponde a los datos de la ecuación de la recta, entonces el error vendrá dado por la diferencia, $y_d-y$. No obstante, debido a que un error como tal puede otorgar valores positivos y también negativos, será conveniente elevarlo al cuadrado, i.e.,
$\xi$ representa el error total, el cual viene dado por la suma sobre todos los puntos, es decir, $n=6$ para el caso dado en la Tabla I. Lo ideal sería hallar una recta cuyo error total sea cero, pero es imposible, como ya dijimos, la recta no pasará por todos los puntos, entonces lo que buscamos hallar es el mínimo error y como este viene dado al cuadrado, es por eso que lo llamamos el método de los mínimos cuadrados. En nuestro caso, si la ecuación de la recta está definida por las variables $m_d$ y $b_d$, entonces tenemos que hallar los valores de $m_d$ y $b_d$ tal que otorguen el mínimo valor posible para $\xi$. Matemáticamente, haciendo uso del cálculo diferencial, estos valores se obtienen hallando la primera derivada de $\xi$ e igualándola a cero, i.e.,
La resolución de las ecuaciones dadas en (3) aparece descrita en la siguiente página.
Vistas: 1 Github
Notificaciones
Recibe los nuevos artículos en tu correo electrónico