L’autocorrélation – UdeM – Module perfectionnement math (CAMMAS)

Dans l’analyse des séries chronologiques, la compréhension de la relation entre les observations au fil du temps est essentielle pour déterminer les paramètres adéquats des modèles d’analyse.

L’autocorrélation est une mesure clé qui révèle l’influence des valeurs passées sur les valeurs futures. Elle consiste ainsi à rechercher des liens directs (ou des relations linéaires) dans les valeurs à différents moments successifs d’une série chronologique.

Dans le contexte des maladies infectieuses comme la rougeole, cela aide à déterminer si une augmentation du nombre de cas à un moment donné est corrélée à une augmentation semblable dans un futur proche. Les données d’une série chronologique sont comme une rangée de dominos :

chaque pièce qui tombe influence la chute de la pièce suivante, similaire à la façon dont chaque observation dans une série chronologique peut être influencée par les observations antérieures. Cette interdépendance est quantifiée par l’autocorrélation.

La fonction d’autocorrélation (ACF)

Lors de l’analyse d’une série chronologique, il est souvent utile de se poser la question suivante : « Ce qui se passe aujourd’hui dépend-il de ce qui s’est passé hier ou il y a plusieurs jours ? »

Pour répondre à cette question, on utilise la fonction d’autocorrélation ou ACF (AutoCorrelation Function).

L’ACF mesure à quel point les valeurs passées de la série influencent les valeurs futures.

Si l’ACF est élevée pour un décalage (ou lag en anglais) de 1 ou 2 périodes, cela signifie qu’une valeur observée dépend beaucoup des 1 ou 2 valeurs précédentes.
Si l’ACF est toujours élevée même après 10 ou 15 périodes, cela indique une dépendance à long terme.

Dans un graphique ACF :

L’axe horizontal montre les décalages (ou lags) ;
L’axe vertical montre la force de la corrélation ;
Chaque barre indique si la corrélation est significative à un certain décalage k.

Ce type de graphique est souvent utilisé comme première étape d’exploration avant d’ajuster un modèle statistique.

L’ACF d’ordre $k$, notée $r_k$, mesure la corrélation entre les valeurs de la série séparées par $k$ périodes.

Elle est calculée avec l’équation $r_k = \frac{c_k}{c_0}\text{,}$ où :

$c_0$ est la variance de la série (la variabilité globale) ;
$c_k$ est l’autocovariance d’ordre $k$, calculée comme :

$$c_k = \frac{1}{n}\sum_{t=1}^{n-k}(y_t – \bar{y})(y_{t+k} – \bar{y}) \qquad$$ où $0 \leq k \lt n$

$$y_t$$ est la valeur de la série au temps $t$ ;

$$n \text{ est le nombre d’observations ;}$$

$$\bar{y} \text{ est la moyenne des } y_t, \text{ ou } \bar{y} = \frac{1}{n}\sum_{t=1}^{n}y_t.$$

Interprétations :

Si $r_k \approx 0$ → pas de lien pour ce décalage ;
Si $r_k > 0$ → lien positif : une hausse dans le passé entraîne une hausse future (au décalage $k$) ;
Si $r_k < 0$ → lien négatif : une hausse entraîne une baisse et vice versa.

La fonction d’autocorrélation partielle (PACF)

La fonction d’autocorrélation partielle ou PACF (Partial AutoCorrelation Function) va un peu plus loin que l’ACF. Elle permet de détecter une corrélation entre deux points en excluant les effets intermédiaires.

Par exemple, imaginez que vous essayez d’écouter une conversation dans une pièce bondée. La PACF vous permet d’isoler uniquement la voix de la personne à qui vous parlez, en filtrant les échos des autres voix autour.

Cela aide à mieux comprendre la dépendance directe entre des périodes espacées, ce qui est très utile pour choisir le bon modèle (comme les modèles AR qui seront vus plus loin).

La PACF est estimée en résolvant des équations entre les corrélations observées. Elle mesure la corrélation directe entre $y_t$ et $y_{t-k}$, en retirant l’influence des valeurs intermédiaires.

Elle est définie à partir de la relation suivante :

$$r_j = \sum_{l=1}^{k} r_{|j-l|} \hat{\varnothing}_{k,l} \qquad$$ où $0 \leq j < k$

$$r_j$$ est l’autocorrélation classique au décalage $k$ ;

$$\hat{\varnothing}_{k,l}$$ est le coefficient d’autocorrélation partielle à l’ordre $n$.

Pour $k = 1$, on a simplement : $\hat{\varnothing}_{1,1} = r_1$.

Pour $k = 2$, on obtient : $\hat{\varnothing}_{2,2} = \frac{r_2 – r_1^2}{1 – r_1^2}$.

Cela permet d’éliminer l’influence de $y_{t-1}$ quand on veut estimer la corrélation entre $y_t$ et $y_{t-2}$.

De façon pratique, si $\hat{\varnothing}_{k,k} = 0$ pour tous décalages $k > p$, cela suggère qu’un modèle autorégressif d’ordre $p$, dénoté AR(p), est approprié.

Ce modèle sera défini à l’activité « Les modèles de séries chronologiques ».

La PACF aide donc à déterminer le nombre de termes à inclure dans un modèle AR, en identifiant les liens vraiment utiles.

Un exemple pratique

Pour illustrer l’utilisation de l’ACF et de la PACF, reprenons l’exemple de l’évolution du nombre de cas de rougeole tous les 14 jours à Londres, de 1945 à 1965.

L’application Shiny suivante permet de visualiser dynamiquement les fonctions ACF et PACF en lien avec la courbe d’évolution des cas de rougeole (apparition progressive, décalages).

Voici les manipulations que vous pouvez faire dans l’application :

Visualiser les fonctions ACF et PACF : le curseur « Nombre de décalages (lags) » permet d’ajuster le nombre de périodes prises en compte dans les graphiques ACF et PACF ; cela aide à explorer la dépendance temporelle pour différents horizons.
Explorer la courbe des cas de rougeole : dans le graphique principal, le déplacement du pointeur de la souris fait apparaître le nombre exact de cas correspondant à chaque date.
Modifier la période d’affichage : l’utilisation des deux curseurs situés sous le graphique (widget « Année ») permet de zoomer sur une plage temporelle spécifique.

Les graphiques ACF et PACF permettent de mieux comprendre la structure temporelle d’une série avant de choisir un modèle statistique.

Chaque barre orange représente la corrélation entre des valeurs observées à différents moments (décalages ou lags).
L’ACF mesure la dépendance globale avec les valeurs passées.
La PACF isole la corrélation directe entre deux points, sans tenir compte des effets intermédiaires.
Les lignes pointillées en vert indiquent des valeurs de corrélations jugées significatives.

Dans le graphique ACF, les données sur la rougeole montrent une forte corrélation jusqu’à un décalage (lag) de 7, puis une corrélation négative à partir d’un décalage de 10. Comme l’intervalle de mesure des cas de rougeole était de 14 jours, cela explique pourquoi cette autocorrélation est logique : les tendances dans les cas de rougeole tendent à se répéter sur des périodes successives.

Dans le graphique PACF, la corrélation est particulièrement forte entre deux observations séparées par un ou deux décalages, ce qui met en évidence l’influence directe des observations les plus proches sans l’interférence des valeurs intermédiaires.

La fonction d’autocorrélation (ACF)

Pour aller plus loin : équation de l’ACF

La fonction d’autocorrélation partielle (PACF)

Pour aller plus loin : équation de la PACF

Un exemple pratique

Voici les manipulations que vous pouvez faire dans l’application :