A RIMA significa Autoregressive Integrated Moving Average modelos. Univariante (vector único) ARIMA es una técnica de previsión que proyecta los valores futuros de una serie basada enteramente en su propia inercia. Su aplicación principal es en el área de pronósticos a corto plazo que requieren al menos 40 puntos de datos históricos. Funciona mejor cuando los datos muestran un patrón estable o consistente en el tiempo con una cantidad mínima de valores atípicos. A veces llamado Box-Jenkins (después de los autores originales), ARIMA suele ser superior a las técnicas de suavización exponencial cuando los datos son razonablemente largos y la correlación entre las observaciones pasadas es estable. Si los datos son cortos o muy volátiles, entonces algún método de suavizado puede funcionar mejor. Si usted no tiene por lo menos 38 puntos de datos, debe considerar algún otro método que ARIMA. El primer paso para aplicar la metodología ARIMA es verificar la estacionariedad. La estacionariedad implica que la serie permanece a un nivel bastante constante en el tiempo. Si existe una tendencia, como en la mayoría de las aplicaciones económicas o de negocios, sus datos NO son estacionarios. Los datos también deben mostrar una variación constante en sus fluctuaciones en el tiempo. Esto se ve fácilmente con una serie que es muy estacional y que crece a un ritmo más rápido. En tal caso, los altibajos en la estacionalidad se harán más dramáticos con el tiempo. Si no se cumplen estas condiciones de estacionariedad, no se pueden calcular muchos de los cálculos asociados con el proceso. Si un gráfico gráfico de los datos indica nonstationarity, entonces usted debe diferenciar la serie. La diferenciación es una excelente forma de transformar una serie no estacionaria en una serie estacionaria. Esto se hace restando la observación en el período actual a la anterior. Si esta transformación se realiza sólo una vez en una serie, se dice que los datos se han diferenciado primero. Este proceso esencialmente elimina la tendencia si su serie está creciendo a una tasa bastante constante. Si está creciendo a un ritmo creciente, puede aplicar el mismo procedimiento y diferenciar los datos de nuevo. Sus datos entonces serían segundos diferenciados. Las autocorrelaciones son valores numéricos que indican cómo una serie de datos se relaciona a sí misma con el tiempo. Más precisamente, mide cuán fuertemente están correlacionados los valores de datos en un número específico de períodos separados entre sí a lo largo del tiempo. El número de períodos separados se llama generalmente el retraso. Por ejemplo, una autocorrelación en el retardo 1 mide cómo los valores 1 período aparte están correlacionados entre sí a lo largo de la serie. Una autocorrelación en el retraso 2 mide cómo los datos dos períodos aparte están correlacionados a lo largo de la serie. Las autocorrelaciones pueden variar de 1 a -1. Un valor próximo a 1 indica una alta correlación positiva, mientras que un valor cercano a -1 implica una correlación negativa alta. Estas medidas se evalúan con mayor frecuencia a través de tramas gráficas llamadas correlagramas. Un correlagrama traza los valores de autocorrelación para una serie dada con diferentes retardos. Esto se conoce como la función de autocorrelación y es muy importante en el método ARIMA. La metodología ARIMA intenta describir los movimientos en una serie temporal estacionaria como una función de lo que se llaman parámetros de media móvil y autorregresiva. Estos parámetros se denominan parámetros AR (autoregessivos) y MA (medias móviles). Un modelo de AR con un solo parámetro se puede escribir como. X (t) A (1) X (t-1) E (t) donde X (t) serie temporal bajo investigación A (1) el parámetro autorregresivo de orden 1 X (t-1) (T) el término de error del modelo Esto simplemente significa que cualquier valor dado X (t) puede explicarse por alguna función de su valor anterior, X (t-1), más algún error aleatorio inexplicable, E (t). Si el valor estimado de A (1) fue de 0,30, entonces el valor actual de la serie estaría relacionado con 30 de su valor hace 1 período. Por supuesto, la serie podría estar relacionada con más de un valor pasado. Por ejemplo, X (t) A (1) X (t-1) A (2) X (t-2) E (t) Esto indica que el valor actual de la serie es una combinación de los dos valores inmediatamente anteriores, X (t-1) y X (t-2), más algún error aleatorio E (t). Nuestro modelo es ahora un modelo autorregresivo de orden 2. Modelos de media móvil: Un segundo tipo de modelo de Box-Jenkins se denomina modelo de media móvil. Aunque estos modelos parecen muy similares al modelo de AR, el concepto detrás de ellos es muy diferente. Los parámetros de la media móvil relacionan lo que sucede en el período t sólo con los errores aleatorios que ocurrieron en períodos de tiempo pasados, es decir, E (t-1), E (t-2), etc., en lugar de X (t-1), X T-2), (Xt-3) como en los enfoques autorregresivos. Un modelo de media móvil con un término MA puede escribirse como sigue. El término B (1) se denomina un MA de orden 1. El signo negativo delante del parámetro se utiliza para la convención solamente y se imprime generalmente La mayoría de los programas de ordenador. El modelo anterior simplemente dice que cualquier valor dado de X (t) está directamente relacionado solamente al error aleatorio en el período anterior, E (t-1), y al término de error actual, E (t). Como en el caso de los modelos autorregresivos, los modelos de media móvil pueden extenderse a estructuras de orden superior que abarcan diferentes combinaciones y longitudes móviles. La metodología ARIMA también permite la construcción de modelos que incorporen parámetros tanto de autorregresión como de media móvil. Estos modelos se refieren a menudo como modelos mixtos. Aunque esto hace que sea una herramienta de pronóstico más complicada, la estructura puede simular mejor la serie y producir un pronóstico más preciso. Los modelos puros implican que la estructura consiste solamente en los parámetros AR o MA - no ambos. Los modelos desarrollados por este enfoque usualmente se llaman modelos ARIMA porque usan una combinación de autoregresión (AR), integración (I), que se refiere al proceso inverso de diferenciación para producir las operaciones de predicción y de media móvil (MA). Un modelo de ARIMA se indica generalmente como ARIMA (p, d, q). Esto representa el orden de los componentes autorregresivos (p), el número de operadores de diferenciación (d) y el orden más alto del término medio móvil. Por ejemplo, ARIMA (2,1,1) significa que usted tiene un modelo autorregresivo de segundo orden con un componente de media móvil de primer orden cuya serie se ha diferenciado una vez para inducir la estacionariedad. Elegir la especificación correcta: El principal problema en el clásico Box-Jenkins es tratar de decidir qué especificación ARIMA utilizar-i. e. Cuántos AR y / o MA parámetros para incluir. Esto es lo que gran parte de Box-Jenkings 1976 se dedicó al proceso de identificación. Dependía de la eva - luación gráfica y numérica de las funciones de autocorrelación de la muestra y de autocorrelación parcial. Bueno, para sus modelos básicos, la tarea no es demasiado difícil. Cada uno tiene funciones de autocorrelación que se ven de cierta manera. Sin embargo, cuando se sube en complejidad, los patrones no se detectan tan fácilmente. Para hacer las cosas más difíciles, sus datos representan sólo una muestra del proceso subyacente. Esto significa que los errores de muestreo (valores atípicos, errores de medición, etc.) pueden distorsionar el proceso teórico de identificación. Es por eso que el modelado ARIMA tradicional es un arte más que una ciencia. Información básica sobre los datos de series de tiempo: El primer propósito de este blog es demostrar el método de construcción de modelos comúnmente conocido como metodología Box-Jenkins o ARIMA. (ARIMA significa media móvil integrada autorregresiva). El segundo objetivo es demostrar cómo se pueden producir pronósticos a partir del modelo ARIMA ajustado. Este blog utiliza una serie de tiempo que consta de 75 observaciones. Llamo a esta serie de tiempo Yt, que es normal para los modelos de pronóstico. Lo que esto significa es que las observaciones se recogieron con el tiempo y entró en el ordenador (Minitab) en orden cronológico. La serie temporal se examina primero usando funciones de autocorrelación y autocorrelación parcial. Este examen preliminar sugiere que un modelo autorregresivo de orden 1 se ajusta a los datos. Este modelo autorregresivo de orden 1, también conocido como modelo AR (1), se construye y se calculan los coeficientes. La adecuación de los modelos se verifica mediante una serie de pruebas de diagnóstico para asegurar que los residuos son aleatorios, normalmente distribuidos y contienen pocos valores atípicos. Entonces, se hacen cuatro pronósticos. A continuación se muestra el gráfico de la serie de tiempo de Yt. 2. Identificación de un Modelo para ser entretenido tentativamente: Para identificar un modelo potencial utilizando la metodología de Box-Jenkins, comenzamos produciendo tanto la función de autocorrelación como la función de autocorrelación parcial para los datos originales de la serie temporal. A continuación, se comparan estas dos salidas gráficas con las salidas gráficas teóricas para ver si se puede encontrar una coincidencia entre ellas. Este proceso de concordancia ayuda a reducir el tipo de modelo que debemos construir. Tenemos numerosas opciones, como la construcción de un modelo autorregresivo, un modelo de media móvil, un modelo mixto, un modelo de datos diferenciados e incluso un modelo con componentes estacionales. Tenemos más opciones, por ejemplo, podríamos escoger un modelo autorregresivo de orden 1, o de orden 2, o de orden 3 dependiendo del número de términos que queramos incluir en el lado derecho de la ecuación. Por lo tanto, utilizamos este proceso de correspondencia gráfica para reducir el número de opciones que debemos considerar. La función de autocorrelación es una representación gráfica de varios coeficientes de autocorrelación para varios intervalos de tiempo. Un coeficiente de autocorrelación es una medida de la correlación entre dos variables: la variable original de la serie temporal y la versión rezagada de esta misma serie temporal. Por ejemplo, un coeficiente de autocorrelación de retraso 2 es una medida de correlación entre los datos originales y los datos originales rezagados dos períodos. Para los datos mensuales, el rezago de dos períodos significa que cambiamos una observación de enero a marzo y que cambiamos una observación de febrero a abril y así sucesivamente. Una autocorrelación de retraso 3 implicaría cambiar una observación de enero a abril e implicaría cambiar una observación de febrero a mayo. La gráfica pone los diferentes intervalos de tiempo en el eje horizontal y representa los coeficientes de autocorrelación como líneas negras que se extienden hacia arriba o hacia abajo. Los coeficientes de autocorrelación son las pequeñas líneas negras que se pegan hacia arriba o hacia abajo y que aparecen todo el camino a través de la sección media de la gráfica. La función de autocorrelación parcial es conceptualmente muy similar a la función de autocorrelación. También es una salida gráfica que contiene varios coeficientes de autocorrelación parcial calculados para varios intervalos de tiempo. Nuevamente, los diferentes retardos de tiempo se ponen a lo largo del eje horizontal y los coeficientes de autocorrelación parcial son tramas como líneas negras que se extienden hacia arriba o hacia abajo. Además, se puede pensar que un coeficiente de autocorrelación parcial es una correlación entre los datos originales de la serie cronológica y una versión retardada de los datos de la serie temporal. La diferencia entre los coeficientes de autocorrelación parcial y los coeficientes de autocorrelación es que los coeficientes de autocorrelación parcial se calculan de tal manera que se tienen en cuenta los efectos de los retardos intermedios. Así, por ejemplo, un coeficiente de autocorrelación parcial en el retardo 12 es la correlación entre las series cronológicas originales y la serie temporal con 12 períodos y hemos ajustado los efectos de los valores intermedios, es decir, se han ajustado los efectos del retardo 1 A través de 11 datos rezagados. Aquí están las funciones de autocorrelación y autocorrelación parcial para los datos de la serie cronológica original. La característica más llamativa de estas dos gráficas es el coeficiente de autocorrelación parcial fuertemente negativo (hacia abajo) con el retardo 1. Entonces, el resto de los coeficientes de autocorrelación parcial son todos muy pequeños y cercanos a cero, es decir, las líneas negras en los otros retardos de tiempo Son muy cortos. Esto es sugestivo de un modelo autorregresivo de orden 1, usualmente abreviado AR (1). La razón por la cual es sugerente es porque comparé esta función de autocorrelación parcial con los gráficos teóricos de un libro que tengo y esta imagen se clasifica bajo la función AR (1). 3. Estimación de parámetros en el modelo de entretenimiento tentativo: Para estimar el modelo autorregresivo de orden 1, o AR (1), utilizo el programa ARIMA de Minitabs. La computadora ejecutó 7 iteraciones y luego estimó los parámetros del modelo. A continuación se presentan los resultados de Minitab. Estimaciones Finales de Parámetros Tipo Coef SE Coef T P AR 1 -0,5376 0,0986 -5,45 0,000 Constante 115,829 1,356 85,42 0,000 Media 75,3310 0,8818 Minitab ha estimado la siguiente ecuación: Minitab también estima los valores de los coeficientes. Los valores estimados de los coeficientes son: Por último, utilizando estas estimaciones de coeficientes, podemos derivar fácilmente la función de pronóstico. (En terminología de regresión, esto sería llamado la función Y-hat). Podemos usar esta función para pronosticar valores futuros de Yt. Por supuesto, primero tendremos que verificar que el modelo AR (1) es adecuado. Esta función de predicción es: Hay que ejecutar una serie de pruebas para asegurarse de que el modelo es satisfactorio. Queremos asegurar que los residuos de este modelo AR (1) son aleatorios. Además, también queremos asegurarnos de que los residuos se distribuyen normalmente y que contienen pocos valores atípicos. Las autocorrelaciones residuales individuales tienen que ser verificadas para asegurarse de que son pequeñas y cercanas a cero. Una prueba general de la adecuación del modelo se proporciona por la prueba de ji cuadrado basada en la estadística Ljung-Box Q. Esta prueba general examina los tamaños de las autocorrelaciones residuales como un grupo. (Es una prueba de portmanteau). La primera prueba que ejecuto es la prueba modificada Box-Pierce o Ljung-Box chi-cuadrado. Esta prueba verifica una serie de autocorrelaciones residuales simultáneamente para ver si son todas aleatorias o no. Si el valor de p es pequeño, es decir, menor que 0,05, el modelo se considera inadecuado. Dado que esta prueba en los retornos 12, 24, 36 y 48 tiene p-valores que son todos mucho mayores que 0,05, el modelo puede considerarse adecuado. Lo que esta prueba nos está diciendo es que un conjunto de autocorrelaciones residuales no es significativamente diferente de lo que se esperaría encontrar al mirar un conjunto de residuos aleatorios. En otras palabras, los residuos son aleatorios. Box-Pierce modificado (Ljung-Box) Estadística Chi-Cuadrada Lag 12 24 36 48 Chi-Cuadrado 9,3 29,8 37,2 58,2 DF 10 22 34 46 P-Valor 0,508 0,124 0,324 0,107 El siguiente gráfico es la función de autocorrelación de los residuos. Esta gráfica muestra las autocorrelaciones residuales individuales. El límite de confianza de 95 se utiliza para probar si un coeficiente de autocorrelación residual es significativamente diferente de cero. Un coeficiente de autocorrelación residual sería significativamente diferente de cero si la línea negra se extendiera hacia arriba de hacia abajo y penetrase a través de uno de los intervalos de confianza (las líneas rojas). Puesto que esto nunca sucede en esta trama, podemos concluir de nuevo que los residuos son aleatorios las autocorrelaciones residuales no son significativamente diferentes de cero. El gráfico siguiente es la función de autocorrelación parcial de los residuos. Lo interpretamos utilizando las mismas reglas generales que se utilizan para la función de autocorrelación. Si una línea negra penetra a través de una línea roja tenemos que preocuparnos porque esto sugiere residuos no aleatorios. Si las líneas negras no penetran a través de las líneas rojas, es muy probable que tengamos residuos aleatorios. Podemos concluir de nuevo que los residuos de este gráfico. Los siguientes dos gráficos se utilizan para comprobar los residuos de la normalidad. El gráfico de probabilidad normal es una forma visual de comprobar la normalidad. Si los residuos son normalmente distribuidos, entonces la parcela debe parecer caer a lo largo de una línea recta. Si muchos residuos divergen radicalmente de la recta, entonces los residuos no son normales. La prueba de normalidad de Anderson-Darling es otra forma de verificar la normalidad de los residuos. Esta prueba tiene una hipótesis nula que dice que los residuos siguen una distribución normal. Dado que el valor de p para esta prueba es 0,539, no podemos rechazar la hipótesis nula y concluir que los residuos son más probable que se distribuyen normalmente. La última prueba que ejecuto es trazar los residuos en función del orden de los datos. Obsérvese que casi todos los residuos están agrupados alrededor de 0, más o menos 20. Esto es un signo alentador porque esperamos que el valor promedio de los residuos sea cero y los residuos tengan una varianza constante a través del tiempo. Sólo hay unos pocos residuos que se desvían fuera de esta banda. Esto sugiere que pocos residuos podrían clasificarse como valores atípicos. Queremos tener pocos outliers esta parcela confirma que tenemos pocos de ellos. Dado que el modelo pasó la fase de diagnóstico, se puede utilizar para desarrollar pronósticos de valores futuros. Una vez más utilizo Minitab para producir cuatro pronósticos. Los datos de la serie temporal original se extendieron desde el periodo de tiempo 1 hasta el periodo de tiempo 75. En consecuencia, las cuatro previsiones se hacen para los períodos de tiempo 76, 77, 78 y 79. Los resultados se presentan a continuación. Previsiones a partir del período 75 95 Porcentaje Límites Período Previsión Inferior Inferior Actual 76 77.122 54.102 100.142 77 74.368 48.232 100.504 78 75.849 48.879 102.818 79 75.053 47.847 102.258 Las previsiones y presentadas en la segunda columna anterior. Los límites 95 nos dan una gama de valores para estas previsiones porque las previsiones contienen cierto grado de incertidumbre. Por ejemplo, la previsión para el periodo de tiempo 76 es 77.122. Sin embargo, el límite de 95 nos dice que el valor real podría muy probablemente caer en algún lugar entre 54 y 100. Esta extensión de los posibles valores advierte al usuario a tener en cuenta que la cifra 77.122 no debe ser tomado como una verdad incuestionable. Es simplemente una estimación puntual que resuelve la ecuación AR (1).Forecasting - ARIMA API Ajusta un modelo de media móvil integrada (ARIMA) AutoRegressive para predecir valores en el futuro. Pronóstico - AutoRegressive API ARIMA es un ejemplo construido con Microsoft Azure Machine Learning que se ajusta a un modelo ARIMA a la entrada de datos por parte del usuario y posteriormente produce los valores previstos para fechas futuras. ¿Puedo predecir las ventas de mi producto para la temporada de fiestas, de modo que pueda planificar eficazmente mi inventario? Los modelos de pronóstico están aptos para abordar estas preguntas. Dados los datos anteriores, estos modelos examinan las tendencias ocultas y la estacionalidad para predecir las tendencias futuras. Si bien este servicio web puede ser consumido por los usuarios potencialmente a través de una aplicación móvil, sitio web o incluso en un equipo local, por ejemplo, el propósito del servicio web es también servir como un ejemplo de cómo Azure ML se puede utilizar para crear servicios web En la parte superior del código R. Con sólo unas pocas líneas de código R y los clics de un botón dentro de Azure ML Studio, se puede crear un experimento con código R y publicarlo como un servicio web. El servicio web puede publicarse en el Azure Marketplace y ser consumido por usuarios y dispositivos de todo el mundo sin la configuración de la infraestructura por parte del autor del servicio web.
Comments
Post a Comment