Les modèles à changement de régimes – UdeM – Module perfectionnement math (CAMMAS)

Les modèles à changement de régimes permettent de décrire des données qui évoluent selon plusieurs états distincts dans le temps. Autrement dit, ils supposent que le comportement d’une série chronologique peut changer soudainement, selon un régime sous-jacent différent, chacun présentant ses propres caractéristiques statistiques (par exemple, une moyenne et/ou une variance différentes).

Ces modèles se distinguent des modèles ARMA et GARCH par la nature du changement qu’ils capturent :

un modèle ARMA décrit une série où la dépendance est continue et linéaire dans le temps, les mêmes relations s’appliquant à toutes les périodes ;
un modèle GARCH suppose que la variance change dans le temps, mais selon une évolution progressive et lisse (la volatilité augmente ou diminue sans rupture franche) ;
un modèle à changement de régimes, en revanche, introduit de véritables transitions entre plusieurs dynamiques possibles : la série alterne entre des phases stables et calmes et des phases actives ou turbulentes, chacune obéissant à ses propres règles statistiques (moyenne et variance).

En d’autres termes, là où un modèle ARMA mise sur la régularité du passé et un modèle GARCH sur la variabilité, un modèle à changement de régimes « apprend » quand et comment le système bascule d’un comportement à un autre.

En santé publique, ces modèles sont particulièrement utiles pour représenter :

les transitions entre phases endémiques et épidémiques ;
les périodes d’intensité variable d’une maladie (par exemple, calme en été et pic saisonnier en hiver) ;
les ruptures structurelles dues à des interventions (vaccination, confinement, etc.).

Le modèle HMM

Le modèle de Markov caché (Hidden Markov Model ou HHM) décrit un système qui évolue dans le temps selon des états internes non observables (états réels cachés ou latents), mais dont on observe des effets directs à travers les données mesurées (observations ou signaux).

Prenons une analogie simple : si on ne voyait pas directement la météo (état caché), on pourrait deviner le temps qu’il fait en observant ce que portent les gens (observation) :

si les personnes portent des manteaux épais, il est probable qu’il fasse froid ;
si elles sont en tenue légère, il fait sans doute chaud.

Cet algorithme a donc permis d’inférer la météo à partir des vêtements observés.

De la même manière, en épidémiologie, les observations (nombre de cas, hospitalisations) reflètent souvent un état latent du système épidémique (phase calme ou épidémique).

Un HMM repose sur deux niveaux de dynamique :

un processus caché $\tau_t$, représentant l’état réel du système à un moment donné ;
un processus observé $Y_t$, qui dépend de l’état latent courant.

Pour un modèle à deux régimes, on peut écrire :

$$Y_t = \begin{cases}
Y_{t,1} & \text{si le régime au temps } t \text{ est } 1 \, (\tau_t = 1) \\
Y_{t,2} & \text{si le régime au temps } t \text{ est } 2 \, (\tau_t = 2)
\end{cases}$$

Pour aller plus loin : processus caché (chaîne de Markov)

Une chaîne de Markov est un processus stochastique (aléatoire) où l’état futur dépend uniquement de l’état présent, et non de tout le passé. Autrement dit, le système possède une mémoire à une seule étape.

$P(\tau_t \mid \tau_{t-1}, \tau_{t-2}, …, \tau_1) = P(\tau_t \mid \tau_{t-1})$

Cette propriété, dite markovienne, signifie que le futur « oublie » le passé lointain : seule la situation actuelle compte pour déterminer la suivante.

Dans un HMM, le processus des états cachés $\tau_t$ évolue dans le temps selon une chaîne de Markov. Cela signifie que la probabilité d’être dans un certain état au temps $t$ dépend uniquement de l’état précédent $\tau_{t-1}$ :

$$P(\tau_t = j \mid \tau_{t-1} = i) = Q_{ij}$$

On peut construire une matrice $Q$ qui regroupe l’ensemble de ces probabilités de transition :

$$Q = \begin{pmatrix} Q_{11} & Q_{12} \\ Q_{21} & Q_{22} \end{pmatrix}$$

où :

$Q_{11}$ est la probabilité de rester dans le régime 1 ;
$Q_{22}$ est la probabilité de rester dans le régime 2 ;
$Q_{12} = 1 – Q_{11}$ est la probabilité de passer du régime 1 au régime 2 ;
$Q_{21} = 1 – Q_{22}$ est la probabilité de passer du régime 2 au régime 1.

Par exemple, si $Q_{11}$ = 0,9 et $Q_{22}$ = 0,8 pour une série chronologique donnée, cela signifie qu’il y a :

90 % de chances de rester en phase calme (état 1) d’une semaine à l’autre ;
80 % de chances de rester en phase épidémique (état 2) une fois celle-ci amorcée.

Les transitions entre régimes sont donc rares et progressives : le système conserve une mémoire d’état à court terme.

Par la suite, chaque observation $Y_t$ suit une distribution conditionnée par l’état caché courant :

$$Y_t \mid (\tau_t = i) \sim f_i(y_t)$$

Dans le cas le plus simple, celui d’un HMM gaussien, chaque régime possède sa propre moyenne et sa propre variance :

$$Y_t \mid (\tau_t = i) \sim \mathcal{N}(\mu_i, \sigma_i^2)$$

Cela revient à dire que :

lorsque le système est en régime 1 (phase calme), les valeurs $Y_t$ sont centrées autour d’une moyenne faible (p. ex. peu de cas) ;
lorsque le système bascule en régime 2 (phase épidémique), la moyenne et la variance augmentent.

Les valeurs observées sont donc le résultat d’un mélange de distributions :

$$f(y_t) = \sum_{i=1}^{K} P(\tau_t = i) f_i(y_t)$$

Cette formulation permet de représenter des séries dont le comportement change dans le temps, selon des régimes distincts.

Une analogie avec les modèles ARMA et GARCH

Le HMM se distingue fondamentalement des modèles ARMA et GARCH par la source de dépendance temporelle :

dans un ARMA, $y_t$ dépend directement des valeurs passées ou des erreurs passées (structure linéaire explicite) ;
dans un GARCH, la dépendance se manifeste dans la variance : les chocs passés influencent la volatilité future ;
dans un HMM, la dépendance vient du changement de régimes latent : les observations dépendent du régime courant, qui lui-même dépend du régime précédent.

Dans un HMM, la mémoire du modèle n’est donc pas dans les $Y_t$ eux-mêmes, mais dans la persistance des régimes. Un changement de régimes peut se produire d’une période à l’autre, mais les transitions sont gouvernées par des probabilités précises dans la matrice $Q$.

Ainsi, le modèle HMM est particulièrement adapté aux phénomènes où les mécanismes sous-jacents changent dans le temps, comme le passage d’une phase épidémique à une phase de rémission, ou d’une période de faible variabilité à une phase d’instabilité accrue.

Pour mieux comprendre le comportement d’un HMM, nous avons simulé un HMM gaussien stationnaire à deux régimes (codes R disponibles dans la section Code R).

Ce modèle comporte deux régimes latents, notés 1 et 2, qui se distinguent par leurs moyennes et leurs variances.

Régime	Moyenne $(\mu)$	Écart-type $(\sigma)$	Interprétation
1	-0,3	0,2	Phase calme : faible moyenne, faible variabilité
2	0,7	0,6	Phase active : moyenne élevée, fluctuations importantes

Le processus des régimes évolue selon une matrice de transition $Q$ donnée par :

$$Q = \begin{pmatrix} 0{,}8 & 0{,}3 \\ 0{,}2 & 0{,}7 \end{pmatrix}$$

Les coefficients de $Q$ se lisent ainsi :

$Q_{11}$ = 0,8 est la probabilité de rester en régime 1 d’une période à l’autre ;
$Q_{22}$ = 0,7 est la probabilité de rester en régime 2 ;
$Q_{12}$ = 0,3 et $Q_{21}$ = 0,2 sont les probabilités de transition entre les deux régimes.

Ces valeurs traduisent une persistance modérée dans les régimes, mais avec des transitions possibles : le système peut rester calme pendant plusieurs périodes, puis basculer vers un régime plus actif (ou inversement).

Ces caractéristiques se traduisent clairement dans les graphiques suivants.

Représentation graphique de la série temporelle $X_5$

Prévision des régimes pour chaque observation
(**régime 1 en noir** et régime 2 en rouge)

Représentations graphiques des fonctions ACF et PACF de la série $X_5$

Représentation graphique de la série temporelle $X_5$

La série observée présente des alternances de comportements :
- certaines périodes montrent des valeurs faibles et relativement stables, correspondant au régime 1 (phase calme) ;
- d’autres périodes montrent des valeurs plus élevées et plus dispersées, correspondant au régime 2 (phase épidémique).
Cette structure alternée illustre bien l’idée de régimes latents : la série change de caractéristiques au fil du temps, comme si le processus passait d’un état de repos à un état d’activité accrue.
Ces transitions ne sont pas régulières, mais probabilistes (selon les lois de la chaîne de Markov) : à chaque période, le modèle évalue la probabilité que le système reste dans le même état ou passe à l’autre.

Prévision des régimes pour chaque observation

Cette figure montre les régimes estimés par le modèle HMM pour chaque point de la série :
- les points noirs correspondent aux périodes identifiées comme appartenant au régime 1 (faible moyenne, faible variance) ;
- les points rouges indiquent le régime 2 (moyenne élevée, plus grande variabilité).
On observe que :
- les régimes sont regroupés en blocs cohérents, traduisant la persistance temporelle des états (le système ne change pas de régime à chaque instant) ;
- les changements de couleur représentent les transitions de régime, estimées à partir de la matrice de transition du modèle.
Dans un contexte épidémiologique, cette capacité du modèle à décomposer automatiquement une série en segments homogènes est précieuse pour identifier les phases d’activité basale et les phases d’activité épidémique, même sans connaître à l’avance leur moment d’apparition.

Représentations graphiques des fonctions ACF et PACF de la série $X_5$

Les fonctions d’autocorrélation et d’autocorrélation partielle ressemblent à celles des modèles AR ou MA.
Même si la dépendance vient des variables latentes, la dépendance temporelle se propage aux observations.

Le modèle AR-HMM

Le modèle AR-HMM (AutoRegressive Hidden Markov Model) combine deux mécanismes complémentaires :

la structure autorégressive des modèles AR, qui capture les dépendances entre les valeurs successives d’une série ;
la structure de régimes cachés du HMM, qui décrit les transitions probabilistes entre différents états latents du système.

Le modèle AR-HMM permet ainsi à chaque régime d’avoir sa propre dynamique temporelle. Dans un régime donné, les observations $Y_t$ peuvent suivre un modèle autorégressif. Chaque état caché $\tau_t$ suit toujours une chaîne de Markov, comme dans un HMM classique, mais ici, le comportement autorégressif change selon le régime.

Ainsi, le modèle peut représenter à la fois :

des transitions entre régimes (p. ex. passage d’une phase stable à une flambée épidémique) ;
des dynamiques internes distinctes dans chaque régime (p. ex. tendance lente dans un état calme, fluctuations rapides en phase épidémique).

Cette flexibilité rend les AR-HMM particulièrement utiles pour des systèmes où la structure temporelle elle-même dépend du contexte, ce qui est fréquent dans les données de santé publique.

Un exemple pratique

Dans le domaine de l’épidémiologie, les modèles à changement de régimes offrent un outil puissant pour comprendre et prédire les dynamiques des maladies infectieuses, où les comportements des séries peuvent varier selon les contextes environnementaux ou saisonniers.

L’étude de Berkat (2023)

en fournit un exemple éclairant. L’équipe de recherche a utilisé un modèle HMM à changement de régimes pour analyser la distribution spatio-temporelle de la dengue dans le département du Meta (Colombie), entre 2011 et 2019. Les données provenaient de 29 municipalités, combinant les cas déclarés de dengue avec plusieurs facteurs environnementaux (pluviométrie, température, humidité, etc.).

Le modèle a permis d’identifier trois régimes latents correspondant à différents niveaux d’activité épidémique :

un régime de faible incidence (période endémique) ;
un régime de cas modérés ;
un régime de forte incidence, correspondant à des flambées épidémiques.

Chaque régime présentait ses propres caractéristiques statistiques et dépendances temporelles, ce qui a permis d’étudier :

la persistance de chaque état (combien de temps dure une phase avant transition) ;
les conditions environnementales associées au passage d’un régime à un autre.

Cette approche a fourni une lecture dynamique et probabiliste de la transmission de la dengue, dépassant la simple corrélation entre climat et incidence. Elle a également permis de mieux cibler les stratégies de surveillance et de prévention, en identifiant les moments et les conditions favorables à une transition vers une phase épidémique.

En résumé

Le modèle HMM permet de :

décomposer une série temporelle en plusieurs régimes distincts, chacun avec ses propres caractéristiques statistiques ;
modéliser explicitement la probabilité de transition entre ces régimes ;
détecter les changements de dynamique du système.

Comme pour les modèles ARMA ou GARCH, le HMM peut prédire directement les valeurs futures, mais en plus, il peut aussi caractériser les changements d’état sous-jacents. C’est un outil particulièrement puissant pour les séries épidémiologiques où le système évolue entre plusieurs « modes d’activité » (p. ex. endémique ↔ épidémique).

Le modèle HMM

Pour aller plus loin : processus caché (chaîne de Markov)

Pour aller plus loin : processus observé (données influencées par l’état)

Des exemples pratiques

Le modèle AR-HMM

Un exemple pratique

En résumé