La bascule automatique des VMs

Quand un serveur tombe en panne, vos VMs redémarrent toutes seules ailleurs. Sans intervention humaine, sans perte de données.

Comment ça marche ?

Proxmox VE intègre un mécanisme de haute disponibilité (HA) qui surveille en permanence l'état de chaque nœud du cluster :

  1. Surveillance — un daemon (corosync/pacemaker) envoie un « heartbeat » toutes les 2 secondes entre les nœuds
  2. Détection — si un nœud ne répond plus pendant 60 secondes, il est déclaré hors ligne
  3. Élection — le cluster choisit le nœud le mieux placé (ressources CPU/RAM disponibles) pour accueillir les VMs du nœud défaillant
  4. Redémarrage — les VMs sont redémarrées sur le nouveau nœud. Le temps d'arrêt est de l'ordre de 30 à 60 secondes
  5. Restauration — une fois le nœud réparé, les VMs peuvent être rebasculées manuellement ou automatiquement

Sans HA ni cluster

Panne serveur = interruption complète du service. Sans cluster et sans HA, une personne doit intervenir pour :

  • Constater la panne
  • Identifier un autre serveur disponible
  • Redémarrer manuellement les VMs sur ce nœud
  • Reconfigurer les accès réseau

Temps d'arrêt : plusieurs heures à plusieurs jours.

Avec HA Proxmox

La VM redémarre automatiquement sur un autre nœud en moins d'une minute :

  • Détection automatique de la panne
  • Redémarrage sur le meilleur nœud disponible
  • Données intactes (stockage Ceph répliqué)
  • Aucune intervention manuelle requise

Temps d'arrêt : ~45 secondes.

Et le stockage dans tout ça ?

Pour que la bascule fonctionne, les données de la VM doivent être accessibles depuis tous les nœuds du cluster. C'est le rôle de Ceph : un système de stockage distribué qui réplique chaque bloc de données ×3 sur l'ensemble des disques du cluster.

Voir le schéma de réplication Ceph →