Microsoft vient de publier le rapport final sur l’interruption de service survenue le 18 novembre sur Microsoft Azure. Pour rappel, ce problème est survenu à la suite d’une mise à jour du service de stockage Azure pour en améliorer les performances. Bien que la mise à jour ait été testé pendant plusieurs semaines sur un sous ensemble de services et de clients, elle engendrait un problème résultant en une boucle infini sur les frontends du stockage des blobs. Il est ainsi devenu impossible pour le service d’absorber le trafic et impacta les services associés (machine virtuelle, sites web, visual studio online…). Microsoft a du procédé à un retour arrière sur la mise à jour montrant des signes de rétablissement après quelques heures. Certaines zones ont mis plusieurs heures pour revenir dans le vert. Les régions suivantes ont été affectées : Etats Unis, Europe, Asie, Japon.
Le résultat de l’investigation a montré deux erreurs opérationnelles :
- La stratégie de déploiement à la volée de manière incrémentielle à travers les couches de production n’a pas été suivie.
- Bien que la validation dans les environnements de test et de pré-production ait été faite contre Azure Table storage Front-Ends, le commutateur de configuration n'a pas été correctement activé pour Blob storage Front-Ends.
Après avoir découvert le problème, tous les changements de configuration ont été immédiatement arrêtés pour examiner l’écart avec l’outil de déploiement. Après que l'analyse ait été terminée, Microsoft a publié une mise à jour de l’outil de déploiement pour faire respecter la stratégie de déploiement. En résumé, Microsoft Azure avait une stratégie opérationnelle claire mais il y avait un écart dans l’outil de déploiement qui est utilisé pour prendre des décisions.
La plupart des machines virtuelles ont pu redémarrer en utilisant le mécanisme de recouverte automatique. Cependant certains problèmes ont été constatés pour quelques machines :
- Durant la restauration, certaines machines ont expérimenté un timeout dans le montage des disques
- Des machines ont échoués durant le provisionnement et l’installation
- Un petit pourcentage de machines virtuelles ont subi une erreur de programmation réseau.
Voici la chronologie des évènements :
- 11/19 00:50 AM – Evènement interruption de service sur le stockage au niveau de plusieurs régions.
- 11/19 00:51 AM – 05:50 AM – Une importante majorité de clients ont subi un impact et ont dû être restauré dans cet intervalle de temps
- 11/19 05:51 AM – 11:00 AM – L’impact sur le stockage ensuite été isolé à un sous ensemble de clients.
- 11/19 10:50 AM – L’impact du stockage a été complétement résolu, l’identification continue sur un sous ensemble de machines virtuelles
- 11/19 11:00 AM – L’ingénieur Azure exécute en continue l’outil d’automatisation pour détecter et réparer les machines virtuelles impactées restantes
- 11/21 11:00 AM – La restauration est complète à travers l’environnement Azure.
Plus d’informations sur : http://azure.microsoft.com/blog/2014/12/17/final-root-cause-analysis-and-improvement-areas-nov-18-azure-storage-service-interruption/