Le site est revenu!

OVH a enfin réussi à réparé son infrastructure!! Le site est à nouveau oppérationnel! Merci OVH pour cette Interlude de 72h... 

Plus de détail pour les curieux : 

Bonjour,

Pour héberger les 3 millions de sites web en hébergement mutualisé

nous utilisons 2 datacentres: le DC historique à Paris (P19) et 

le nouveau DC à Gravelines (GRA1). Sur P19, nous utilisons

différentes technologies pour stocker les données pour les sites

web et les bases de données. Dans la majorité de cas nous

utilisons notre technologie NAS ou NAS-HA basée sur le ZFS.



Aussi sur P19, dans certains cas nous utilisons les baies

de stockage propriétaires d'EMC VNX 5400 avec les disques

SSD. Il s'agit d'une solution que nous avons mis en place

en 2012 pour palier aux problèmes de performances de stockage

que nous avons eu en 2012 sur les bases de données. Depuis

nous avons fixé la performance sur nos NAS-HA et sur GRA 

nous n'utilisons plus que nos solutions interne.



Le jeudi 29 juin à 18h30, nous avons eu un incident sur

l'une de baies de stockage EMC VNX 5400 que nous utilisons

pour stocker une partie de bases de données de hébergement

mutualisé à P19. Il s'agit d'un ensemble composé de 96

disques SSD configurés en active/active sur plusieurs 

baies physiques. L'ensemble ne veut plus redémarrer. Nous

avons contacté le constructeur et nous essayons de trouver

une solution pour récupérer les données hébergés sur cette

baie. 



La technologie d'EMC n'est pas à l'origine de l'incident.

Nos datacentres ne sont pas adaptés pour héberger ce type

d'infrastructure. Seules certaines salles sont spécialement 

préparées pour ce genre d'hébergement, mais cette baie de 

stockage n'y a pas été hébergé ce qui est l'origine du 

problème. Nous remercions EMC de nous aider à résoudre cet 

incident.



Cette baie de stockage est utilisée pour héberger les bases

de données d'hébergement mutualisé. Aussi toutes les bases de

données sont backupés tous les 24 heures sur d'autres systèmes

de stockage qui sont dans un autre DC à Roubaix: RBX1.



Nous avons 2 actions en cours:



1) nous sommes en contact avec EMC avec qui nous avons

essayé de redémarrer le système. une équipe de RBX a pris

une baie de stockage EMC VNX 5400 que nous avons eu en 

spare à Roubaix pour la transporter à P19. La baie est 

arrivée à P19 vers 3H du matin et nous essayons de 

redémarrer les disques dans cette nouvelle baie de stockage.

Nous avons demandé l'intervention d'EMC sur le site pour

nous aider à la redémarrer au plus vite. Nous ne savons

pas encore combien de temps va prendre le redémarrage de

la baie et si nous arriverons à récupérer les données.

Nous n'avons pas d'ETA. Le technicien d'EMC devrait être

sur le site vers 10H00. Nous aurons plus d'information à

ce moment là. 



2) c'est pourquoi nous avons lancé la restauration de bases de 

données à partir de backup. Cette restauration a commencé

vers minuit du matin. Ce matin à 9h, environ 15% de bases de

données ont été remises en route en mode "lecture seule"

c'est à dire que les sites web peuvent lire les données 

dans les bases de données mais ne peuvent pas encore les

modifier. Nous continuons la restauration qui va prendre 

jusqu'à environ ce soir 20h. L'ensemble de process est 

désormais automatisé et nous avons assez de stockage pour

deployer toutes ces bases de données sur P19.



Next step. Il y a 2 choix. Le plan A et le plan B.



A) si nous arrivons à récupérer les données de la baie

nous allons immédiatement redémarrer toutes les bases

de données. aucune perte de données.



b) si nous n'arrivons pas à redémarre la baie. Dans

ce cas là nous allons activer le mode "lecture et 

écriture" sur les bases de données qui ont été

restaurées à partir du backup qui aura un retard de

minimum 1H et maximum 22H sur la version de bases

de données à l'heure de la panne.



Pour suivre les tasks de travaux sur la restauration 

de bases de données:

http://travaux.ovh.net/?do=details&id=25697



113 VM avec les bases de données ont été impactées.



Nous sommes sincèrement désolés pour cette panne. La

dernière panne de cette ampleur date de 2006 et à

l’époque nous avons remis en question toutes les 

technologies de stockage que nous utilisons chez Ovh.

Cette panne est une leçon de plus et nous allons vous

communiquer les changements qui vont s’opérer dés la

fin de cet incident pour éviter de revivre la prochaine

panne de cette ampleur dans 10 ans encore.



Amicalement

Octave

Taupi
Portrait de Taupi
offline
Dernière visite: Il y a 1 mois 1 semaine
BadgeMembre
Inscription: 15/10/2012 - 17:33
Le forum est loin d'avoir

Le forum est loin d'avoir récupéré son intégrité ! :/

_______
P-E

Arkadyne
Portrait de Arkadyne
offline
Dernière visite: Il y a 6 jours 10 heures
BadgeMembre
Inscription: 19/03/2017 - 16:11
Au moins on a un outil pour

Au moins on a un outil pour communiquer !

Il était pas question de le refaire pendant les vacances le forum justement ?

Nicoalk13
Portrait de Nicoalk13
offline
Dernière visite: Il y a 1 semaine 16 heures
BadgeAdmin
Inscription: 07/09/2012 - 17:29
C'est en cours...

C'est en cours...

Arkadyne
Portrait de Arkadyne
offline
Dernière visite: Il y a 6 jours 10 heures
BadgeMembre
Inscription: 19/03/2017 - 16:11
Super !

Super !