La extrapolación lineal para predecir el futuro de Despacito

stats con chris
2022-03-25
0

...

Considerando la extrapolación lineal predecimos que Despacito se convierte en el video de Youtube más visto en el mundo, alcanzando la cifra de 3 mil millones de vistas en el mes de agosto del 2017. Oficialmente lo hizo el 5 de agosto (horario europeo). Los conceptos expuestos aquí forman parte de una introducción a la ciencia de los datos. El código fue desarrollado en Python.

Considerando la extrapolación lineal predecimos que Despacito se convierte en el video de Youtube más visto en el mundo, alcanzando la cifra de 3 mil millones de vistas en el mes de agosto del 2017. Oficialmente lo hizo el 5 de agosto (horario europeo). Los conceptos expuestos aquí forman parte de una introducción a la ciencia de los datos. El código fue desarrollado en Python.

Un resumen de este artículo con algunos datos extras aparece en el siguiente video:

El 20 de abril del 2017 me encontraba en Milán. Aquella noche, la primera palabra que escuché al llegar al Naviglio Pavese fue "Despacito". Me causó gracia, pero cuando la volví a escuchar una y otra vez en los grupos que cruzaban por mi lado deduje que algo raro estaba pasando... y no me equivoqué, ese día, la canción Despacito de Luis Fonsi había superado mil millones de vistas en Youtube. Al día siguiente, viajé a Munich y al llegar lo primero que hice fue preguntarle a una amiga alemana si conocía la canción. A ella le gustaba el rock, por tanto me dijo que no, pero dos meses después cuando volví a hablar con ella, me comentó que ya no podía tolerarla, la escuchaba por todos lados. Justamente, dos meses después, el 20 de junio del 2017, Despacito había alcanzado 2 mil millones de vistas en Youtube. Tras esto, los medios del mundo empezaron a prestar atención a este fenómeno latino, sobre todo porque el 10 de julio del 2017, See You Again de Wiz Khalifa estaba desplazando a Gangnam Style de PSY como el video más visto en Youtube:

Tabla I: Los videos más vistos en Youtube. Jul. 10, 2017.
Ranking Canción Autor
1 See You Again W. Khalifa
2 Gangnam Style PSY
3 Sorry J. Bieber
4 Uptown Funk B. Mars
5 Despacito L. Fonsi

Entonces, apreciando el ranking (R) dado en la Tabla I, la interrogante mundial surgió: "¿Despacito será capaz de destronar a See You Again?" Curiosamente, la respuesta a esta interrogante se encuentra en las matemáticas y es por eso que hoy en día, muchas entidades financieras están obsesionadas reclutando matemáticos porque son ellos los nuevos oráculos del mundo, capaces de predecir el futuro y generar fuertes ganancias con sus modelos matemáticos.

Fue el 4 de julio del 2017 que me propuse responder esta pregunta, y para esto, cada 24 horas, empecé a anotar en un papel la cantidad de vistas acumuladas en Youtube por cada canción. Los resultados aparecen a continuación:

Fig. 1: Número de vistas de las 5 canciones más vistas en Youtube desde el 4 al 9 de julio del 2017.

En la Fig. 1, el eje vertical representa el número total de vistas en Youtube y el eje horizontal representa el intervalo de tiempo expresado en días. Como puedes apreciar, tenemos 6 datos para cada canción, los cuales abarcan del 4 al 9 de julio. Por simple inspección podemos decir que todas las canciones tienen un comportamiento lineal, es decir, sus números totales de vistas en Youtube vs tiempo pueden ser dadas trazando rectas. Estas rectas, si las prolongamos, en algún momento se van a cruzar, y este cruce definirá el momento en que una canción supera a otra en número de vistas. Entonces, en en este artículo, más allá de responder si Despacito superará a See You Again, responderemos cuándo lo hará. Para ello, prolongaremos las rectas y hallaremos las fechas de los puntos de cruce. Matemáticamente, este proceso se conoce como extrapolación lineal y requiere de dos pasos importantes a considerar: i) Definir la ecuación de la recta de cada canción. ii) Hallar los puntos en que se interceptan las rectas.

Fig. 2: Extrapolación lineal de las 5 canciones más vistas en Youtube. En amarillo representamos los días dados en la Fig. 1.

Los resultados vienen dados en la Fig. 2, donde hemos extrapolado los datos de la Fig. 1 (zona amarilla). Para hallar las ecuaciones de las rectas hemos usado el método de los mínimos cuadrados. Una explicación completa del análisis aparece en el siguiente enlace:

Y el código asociado lo puedes descargar de mi repositorio de Github. Para profundizar en el tema es necesario tener presente que la ecuación de la recta viene dada por $y = m x + b.$ Entonces, conociendo $m$ y $b$, podemos saber el valor que adopta $y$ (número total de vistas) para cada valor de $x$ (tiempo expresado en días). En este sentido, por ejemplo, si las ecuaciones de Despacito ($d$) y See You Again ($s$) vienen dadas por:

$$y_d = m_d x + b_d,$$ $$y_s = m_s x + b_s,$$

para determinar el punto en que estas se crucen, se debe cumplir la relación $y_d = y_s$, o lo que es, $m_d x + b_d = m_s x + b_s$. Esta relación forma parte de lo que llamamos la extrapolación lineal, porque estamos asumiendo que el comportamiento futuro seguirá cumpliendo una tendencia lineal. Resolviendo la ecuación obtenemos: $$x = \frac{b_s - b_d}{m_d - m_s}.$$ Como ves, basta conocer $m$ y $b$ para obtener el punto de cruce. Mayores detalles aparecen en la explicación completa detallada en el enlace superior. A continuación te muestro el resultado final:

Tabla II: Resultados de la aproximación lineal. Año 2017.
Jul. 15:
Despacito supera a Uptown Funk.
Jul. 20:
Despacito supera a Sorry.
Ago. 01:
Despacito supera a Gangnam Style.
Ago. 04:
Despacito supera a See You Again.

Debes tener presente que los resultados dados en la Tabla II presentan un margen de error porque estamos asumiendo un comportamiento lineal a futuro en base a datos dados únicamente desde el 4 al 9 de julio. En general, un modelo de predicción considera a las variables como estocásticas, es decir, las variables son aleatorias (no determinísticas) y están expuestas a shocks externos que pueden cambiar el curso “normal” de la historia. Por ejemplo, el número de vistas es una variable aleatoria, porque desconozco con exactitud el número de personas que verá el video-clip al siguiente día, pero si puedo atreverme a dar un número con cierto grado de significancia, es decir, mi predicción está sujeta a un margen de error que depende del modelo que utilice. En el ejemplo dado en la Fig. 2, donde hemos aplicado la extrapolación lineal usando el método de mínimos cuadrados, hemos omitido diversos factores exógenos que afectan el número de vistas, como por ejemplo, la rutina de las personas, el acceso a internet, la utilidad marginal decreciente de cada individuo (esto es, el hecho de que las canciones tarde o temprano llegan a cansar), entre otros factores. ¿En qué tiempo una persona se empalaga de su música favorita? No lo sabemos, cada canción tiene diferentes comportamientos. Solo sabemos que llegan a cansar. Si queremos un modelo un poco más sofisticado donde podamos usar todas estas variables, conceptos estadísticos tales como la teoría Bayesiana y las series de tiempo son necesarias. Así es, suena complicado y por eso es algo que veremos mejor en otra oportunidad.

Aquí nos enfocaremos en entender las limitaciones de nuestro modelo de predicción, para ello nos enfocaremos en Despacito. Dicha canción se estreno el 12 de enero del 2017, 97 días después alcanzó mil millones de vistas en Youtube, lo que supone que en promedio acumuló 10 millones de vistas por día desde el 12 de enero hasta el 20 de abril. ¿Con estos datos podemos inferir lo que ocurrirá después? No necesariamente, porque el comportamiento es estocástico, entonces existen factores exógenos que pueden alterar las tendencias. Uno de estos factores tiene nombre: Justin Bieber. El 17 de abril alteró los datos probabilísticos con su remix de Despacito. Esta alteración vendría a ser un shock positivo al número de vistas, pues Justin Bieber, por la cantidad de fans que posee en el mundo, transformó el crecimiento probabilístico de Despacito, quien se expandió en el mundo anglosajón. El 20 de junio, Despacito alcanzó 2 mil millones de vistas, es decir, en 60 días (del 20 de abril al 20 de junio) acumuló en promedio 16.7 millones de vistas por día. Aquí quiero que prestes atención a estos valores, porque si realizábamos el ajuste lineal con los datos de los primeros meses del año, hubiésemos obtenido como pronóstico un crecimiento continuo de 10 millones de vistas por día, pero en los meses posteriores fue de 16.7 millones, es decir, la extrapolación lineal nos hubiese botado resultados totalmente incorrectos. ¿Y qué pasó después del 20 de junio? El siguiente histograma nos lo muestra:

Fig. 3: Histograma del numero de vistas vs tiempo de la canción Despacito en los meses de junio y julio 2017.

Aunque la canción ya lleva tiempo, Despacito, en los meses de junio y julio está disfrutando sus picos más altos, alcanzando un promedio de 21 millones de vistas por día, con picos superiores a 24 millones los fines de semana. ¿Podrá Despacito superar estos valores en el mes de agosto? Probablemente no. Si bien no se muestran los cálculos aquí para no hacer engorrosa la discusión, se puede estimar que la canción ha llegado a valores estables y en las próximas semanas irá decayendo "despacito" y "poquito a poquito"; por tanto, es factible asumir que los pronósticos dados en la Tabla II no se cumplirán a plenitud y eventualmente habrá un desfase de unos días. Elaboremos más este análisis con los siguientes datos:

Tabla III: Los videos más vistos en Youtube. Julio 08, 2017.
Canción Número de vistas por día (millones)
See You Again 3.5
Gangnam Style 1.1
Sorry 2.3
Uptown Funk 2.3
Despacito 24

En la Tabla III estamos mostrando los valores más altos que las canciones pueden tener en un día de julio, porque estos corresponden a valores de fin de semana. Desligándonos de factores externos, podemos intuir que See You Again descenderá en un futuro a 2.3 millones de vistas por día debido a que estos son los valores estables de Sorry y Uptown Funk, lo cual lo convierte de todas formas en el video más visto en el mes de julio. Previamente hemos dicho que Despacito destronará a See You Again el 4 de agosto; no obstante, debido al margen de error es mejor afirmar que se convertirá en el video con más reproducciones entre la primera y la segunda semana de agosto.

La pregunta pendiente sería, ¿en qué fecha Despacito alcanzará 3 mil millones de vistas? Si usamos la ecuación de la recta definida en la Fig. 2, obtenemos que lo logrará el 5 de agosto del 2017. Por tanto, considerando el margen de error, llegamos a misma conclusión, i.e., alcanzará 3 mil millones de vistas entre la primera y segunda semana de agosto. Los resultados finales, los cuales se cumplieron correctamente, aparecen descritos en el artículo: "El cálculo integral para predecir el futuro de Despacito".

Vistas: 1 Github

stats con chris

Un escritor que aprendió a sumar

Un escritor que aprendió a sumar

Notificaciones

Recibe los nuevos artículos en tu correo electrónico

2022 © nepy

Un solo aliento

Configurar

Elige tu propio estilo

Color

Elige el modo que sea de tu agrado


Posición del Navegador

Elige el sistema de navegación


Estilo del Navegador

Elige el estilo del navegador vertical

Personalizar