La bascule automatique des VMs

Quand un serveur tombe en panne, vos VMs redémarrent toutes seules ailleurs. Sans intervention humaine, sans perte de données.

Comment ça marche ?

Proxmox VE intègre un mécanisme de haute disponibilité (HA) qui surveille en permanence l'état de chaque nœud du cluster :

Surveillance — un daemon (corosync/pacemaker) envoie un « heartbeat » toutes les 2 secondes entre les nœuds
Détection — si un nœud ne répond plus pendant 60 secondes, il est déclaré hors ligne
Élection — le cluster choisit le nœud le mieux placé (ressources CPU/RAM disponibles) pour accueillir les VMs du nœud défaillant
Redémarrage — les VMs sont redémarrées sur le nouveau nœud. Le temps d'arrêt est de l'ordre de 30 à 60 secondes
Restauration — une fois le nœud réparé, les VMs peuvent être rebasculées manuellement ou automatiquement

Sans HA ni cluster

Panne serveur = interruption complète du service. Sans cluster et sans HA, une personne doit intervenir pour :

Constater la panne
Identifier un autre serveur disponible
Redémarrer manuellement les VMs sur ce nœud
Reconfigurer les accès réseau

Temps d'arrêt : plusieurs heures à plusieurs jours.

Avec HA Proxmox

La VM redémarre automatiquement sur un autre nœud en moins d'une minute :

Détection automatique de la panne
Redémarrage sur le meilleur nœud disponible
Données intactes (stockage Ceph répliqué)
Aucune intervention manuelle requise

Temps d'arrêt : ~45 secondes.

Et le stockage dans tout ça ?

Pour que la bascule fonctionne, les données de la VM doivent être accessibles depuis tous les nœuds du cluster. C'est le rôle de Ceph : un système de stockage distribué qui réplique chaque bloc de données ×3 sur l'ensemble des disques du cluster.

Voir le schéma de réplication Ceph →