La modélisation : estimation et prédiction à partir des modèles ARMA – UdeM – Module perfectionnement math (CAMMAS)

En pratique, la partie la plus utile de l’analyse des séries chronologiques est la modélisation. Après avoir vu la structure et le comportement des modèles ARMA à l’aide de séries simulées, voyons comment appliquer ces modèles à un cas réel.

Reprenons l’exemple de la série des cas de rougeole, à Londres, de 1944 à 1965. Le graphique suivant illustre l’évolution des cas observés sur cette période : on observe des cycles réguliers et des variations d’amplitude, typiques des dynamiques épidémiques.

Graphique Série des cas de rougeole, à Londres, de 1944 à 1965 — Série des cas de rougeole, à Londres, de 1944 à 1965 (à l’échelle logarithmique)

Information — Série des cas de rougeole, à Londres, de 1944 à 1965 (à l’échelle logarithmique)

La modélisation permet de décrire la structure temporelle d’une série, d’en comprendre les dépendances internes et d’en prévoir les évolutions futures. La première étape consiste à identifier le modèle ARMA le plus approprié, c’est-à-dire celui qui reproduit le mieux les relations temporelles entre les observations successives.

L’ajustement du modèle

On sait que les modèles ARMA(p,q) combinent deux composantes :

une partie autorégressive (AR), qui décrit la dépendance entre la valeur actuelle et les valeurs passées ;
une partie moyenne mobile (MA), qui tient compte des erreurs de prévision précédentes.

Plusieurs combinaisons (p,q) peuvent être testées. Pour choisir le modèle le plus pertinent, on utilise des critères d’information tels que le critère AIC (Akaike Information Criterion) et le critère BIC (Bayesian Information Criterion).

Ces critères évaluent l’équilibre entre :

la qualité de l’ajustement (un modèle plus complexe s’adapte mieux aux données observées) ;
la simplicité du modèle (éviter le surajustement, ou overfitting).

De façon générale :

Plus la valeur de l’AIC ou du BIC est faible, meilleur est le compromis entre précision et parcimonie.
L’AIC a tendance à favoriser les modèles plus flexibles, tandis que le BIC pénalise davantage la complexité.

Autrement dit, ces critères permettent de répondre à une question fondamentale : « Quel modèle explique le mieux les données, sans être inutilement complexe ? ». Dans notre exemple, le modèle ARMA(2,1) s’est révélé le plus performant selon ces critères.

Cela signifie :

Les deux dernières valeurs observées influencent directement la valeur actuelle (composante AR(2)).
Une erreur de prévision précédente intervient également dans le calcul (composante MA(1)).

Après ajustement, le modèle s’écrit :

$$y_t = \mu + \phi_1(y_{t-1} – \mu) + \phi_2(y_{t-2} – \mu) + \varepsilon_t + \theta_1\varepsilon_{t-1}$$

où $y_t$ représente le logarithme du nombre de cas de rougeole au temps $t$.

Pourquoi utiliser une échelle logarithmique ?

Les séries de cas de maladies infectieuses présentent souvent des valeurs très variables : de faibles nombres pendant les périodes calmes et de très grands nombres lors des épidémies. L’échelle logarithmique atténue ces écarts, stabilise la variance et permet d’obtenir une série plus proche de la stationnarité, condition nécessaire à l’ajustement d’un modèle ARMA.

L’ajustement du modèle ARMA(2,1) aux données observées donne les estimations suivantes :

Paramètre	Interprétation	Valeur estimée
$\phi_1$	Influence de la valeur précédente $y_{t-1}$	1,8726
$\phi_2$	Influence de la valeur deux périodes avant $y_{t-2}$	-0,9026
$\theta_1$	Influence de l’erreur précédente $\varepsilon_{t-1}$	-0,6565
$\mu$	Moyenne	6,015
AIC	Indicateur global de qualité de l’ajustement	176,88

Ces coefficients traduisent une forte dépendance temporelle : les valeurs passées influencent directement la valeur actuelle observée, avec un effet d’amortissement progressif et un léger effet correctif négatif sur le long terme. L’AIC, plus faible que pour les autres modèles testés, confirme que cette combinaison (p=2, q=1) offre le meilleur compromis entre fidélité et simplicité. Notez que les conditions de stationnarité et d’inversibilité sont satisfaites.

Remarque

Les détails complets de cette modélisation et le code R correspondant sont disponibles dans la section Code R.

Les prédictions à partir des modèles

Une fois le modèle ajusté, on peut générer des prédictions pour la période de données disponibles.

Le graphique suivant illustre les valeurs ajustées par le modèle ARMA(2,1) sur les données observées jusqu’en 1962 (échelle logarithmique).

Graphique valeurs prévues et observées des cas de rougeole pour 1944 et 1945 — Valeurs prévues et observées des cas de rougeole pour 1944 et 1945

La ligne bleue représente les observations réelles.
La ligne orange correspond aux valeurs prévues par le modèle.

Les prédictions suivent de près les observations, avec un léger décalage temporel, typique de ce type de modèle. Ce décalage s’explique par le fait que les prévisions reposent sur les valeurs et erreurs du passé immédiat, et non sur des événements externes.

Remarque

Ce comportement illustre la nature « mémorielle » du modèle ARMA : il prédit à partir d’un passé récent, sans anticiper les changements soudains, comme une intervention de santé publique ou une modification du comportement de la population.

Le modèle a été entraîné sur les données jusqu’en 1962. Une fois calibré, il peut servir à prévoir les valeurs futures sur des périodes non incluses dans l’estimation (forecasting). Dans notre exemple, le modèle ARMA(2,1) est utilisé pour prédire le nombre de cas de rougeole pour les années 1963 et 1964.

Graphique prédiction des cas de rougeole pour 1963 et 1964 — Prédiction des cas de rougeole pour 1963 et 1964

Les valeurs prévues reproduisent les grandes oscillations observées auparavant, mais l’incertitude augmente à mesure que l’on s’éloigne de la période de calibration. Les modèles ARMA étant autoréférentiels, chaque nouvelle prévision dépend des précédentes, ce qui amplifie progressivement les écarts possibles.

Remarque

Les intervalles de confiance, non représentés ici pour alléger la figure, s’élargissent avec l’horizon de prévision. Cela reflète la diminution de la précision à long terme, commune à tous les modèles prédictifs fondés sur des données temporelles.

Les limites et les extensions du modèle

Les modèles ARMA constituent une étape essentielle dans l’analyse de séries chronologiques stationnaires. Cependant, ils ne tiennent pas compte de certaines caractéristiques souvent observées dans les données réelles :

la saisonnalité, comme les pics hivernaux récurrents des maladies infectieuses ;
les changements structurels, tels que l’introduction d’un vaccin ou des variations de politiques sanitaires.

Pour de telles situations, on utilise des modèles étendus, comme les modèles SARIMA (Seasonal Autoregressive Integrated Moving Average), qui ajoutent des composantes saisonnières explicites (par exemple, un cycle annuel). Ces extensions seront abordées dans la prochaine section.

Paramètre	Interprétation	Valeur estimée
\(\phi_1\)	Influence de la valeur précédente \(y_{t-1}\)	1,8726
\(\phi_2\)	Influence de la valeur deux périodes avant \(y_{t-2}\)	-0,9026
\(\theta_1\)	Influence de l’erreur précédente \(\varepsilon_{t-1}\)	-0,6565
\(\mu\)	Moyenne	6,015
AIC	Indicateur global de qualité de l’ajustement	176,88