Más Allá del Modelo: El Arte de Preparar Datos en Forecasting
Durante los primeros años del auge del machine learning, la comunidad técnica solía debatir sobre qué algoritmos eran mejores: ¿era mejor usar redes neuronales, support vector machines o tal vez un buen modelo de regresión? Los avances en capacidad de cómputo habían permitido desarrollar modelos cada vez más complejos. Sin embargo, con el tiempo se empezó a notar algo curioso: los mejores modelos no siempre producían las mejores predicciones.
Entonces los científicos de datos empezaron a mirar con más detenimiento el origen de sus problemas. No era que el modelo en sí estuviera mal, aunque a veces existe el paradigma errado de que los últimos modelos de deep learning son como cajas negras mágicas que por su nombre y complejidad, pueden hacerlo todo. Pero no. El verdadero reto estaba en los datos. Sin datos de calidad, ni el modelo más sofisticado puede producir resultados útiles. Esto marcó un cambio importante en cómo pensamos sobre el pipeline de machine learning, especialmente en casos donde se trabajaba con series de tiempo para forecasting y más aún si se trata de datasets de ventas.
El Pretratamiento de Datos: Fundamento de Toda Predicción
Antes de escoger cualquier modelo, el primer paso esencial es asegurarse de que los datos sean precisos y coherentes. En el caso de las series de tiempo, estas suelen contener desafíos únicos: datos faltantes, outliers o inconsistencias debidas a errores en la recopilación o a la operación en sí.
Por tanto sin una limpieza adecuada, los modelos simplemente fallan en su error, es decir, este va a ser más alto. Hoy sabemos que procesos como la imputación de valores faltantes o la normalización de datos son tan importantes como el modelado en sí.
Pongamos un ejemplo clásico: imaginemos que estamos tratando de predecir la demanda de un producto a lo largo del tiempo. Es común que ante quiebres de inventario, las ventas queden en ceros en varios puntos de tiempo, a veces continuos. Si no limpiamos la serie de tiempo y dejamos que estos valores erróneos se cuelen en el conjunto, nuestro modelo terminará aprendiendo este patrón de ceros. Aquí, técnicas como la interpolación o la detección y reemplazo de datos permiten estabilizar la serie, evitando que los modelos generen predicciones incorrectas. En Signeo AI sabemos esto desde el primer día y nuestro SaaS cuenta con varios métodos automáticos para la normalización de la data por SKU, lo cual ha logrado reducir el error hasta veinte puntos porcentuales una vez el modelo llega a su límite.
EDA: Desentrañando los Secretos Ocultos en la Serie de Tiempo
El Análisis Exploratorio de Datos (EDA) es otra etapa crucial. Durante mucho tiempo se pensó que los datos debían ser simplemente alimentados al modelo, pero hoy sabemos que comprender la estructura interna de los datos puede marcar la diferencia entre una buena y una mala predicción.
Por ejemplo una de las herramientas que revolucionaron el campo del forecasting es la función de autocorrelación. Esta función permite identificar la dependencia entre los valores pasados y futuros de la serie. A principios del siglo XXI, esta técnica era poco conocida fuera de los círculos académicos, pero su adopción en la industria transformó la precisión de los modelos de forecasting.
Otro paso a veces obvio pero pasado por alto, es graficar la serie de tiempo, para detectar tendencias ocultas, estacionalidades y cambios estructurales. Por ejemplo, una serie de tiempo podría mostrar fluctuaciones cíclicas que sólo se revelan a través de gráficos de líneas o correlogramas. Entender estos ciclos permite modelar la serie con más precisión, adaptando el algoritmo y sus hiperparámetros a los verdaderos patrones de los datos.
El Pretratamiento y EDA en Series de Tiempo: Años de Aprendizaje y Refinamiento
Hoy, muchas empresas y expertos en machine learning saben que los modelos avanzados de forecasting, como las redes neuronales recurrentes (RNNs) o los modelos de crecimiento exponencial (Prophet), sólo alcanzan su potencial cuando los datos han sido correctamente tratados. La diferenciación, un proceso que convierte una serie no estacionaria en estacionaria, ha sido una de las claves más importantes en este campo. Introducida inicialmente en modelos derivados de la arquitectura ARMA como ARIMA, la diferenciación se utiliza ahora en muchos otros enfoques para garantizar que los modelos capturen relaciones temporales reales en los datos.
Más Allá de los Algoritmos: El Valor de los Datos
Al final del día, las experiencias de los últimos veinte años nos enseñan que un modelo no es nada sin buenos datos. Y los buenos datos no surgen por accidente. Requieren una atención cuidadosa desde el pretratamiento hasta el análisis detallado. Es aquí donde reside el verdadero poder del forecasting en series de tiempo: no solo en elegir el mejor modelo, sino en asegurarse de que la base sobre la que trabaja sea sólida.
Es fácil dejarse llevar por los avances en inteligencia artificial y la sofisticación de los algoritmos, pero lo que realmente determina el éxito en forecasting es un compromiso riguroso con los datos. Un modelo es tan bueno como los datos que se le proporcionan, y si estos no están adecuadamente tratados, el modelo estará destinado a fallar, independientemente de su complejidad.