Date du post mortem : 21/03/2017
Participants du post mortem : David, Chakib, Anthony
Coupure du trafic SSL dû à l'introduction d'une mauvaise configuration des fronts SSL lors du déploiement de nouveaux certificats.
La cause identifiée de l'incident est le fait que la mise à jour partielle de la configuration SSL a introduit des changements incompatibles avec la configuration en place.
A 17h52, mise à jour des certificats SSL pour un client.
A 17h58, un ticket au support indique le problème d'erreurs 502.
A 18h00, identification de la nature du problème lié à l'HTTPS. Les graphs de trafic HTTPS ont brutalement chutés.
A 18h08, annonce de l'incident sur status.fasterize.com.
Entre 17h58 et 18h20, traitement de tickets au support relatif au problème.
A 18h10, bascule forcée manuellement vers les origines des clients.
A 18h12, alerte du problème via notre système de monitoring.
A 18h15, un hot fix est appliqué sur les fronts pour rétablir une configuration correcte.
A 18h15, bascule du trafic vers la plateforme Fasterize.
A 18h19, mise à jour du status de l'incident à "résolu".
A 18h25, détection d'un problème de connexion workers / brokers suite au débranchement du trafic de 18h10.
Entre 18h45 et 19h09, redémarrage progressif de l'ensemble des workers pour rétablir des connexions avec les brokers.
Sévérité 1 : arrêt du site non planifié qui affecte un nombre significatif d'utilisateurs
Time to detect : 6min
Time to resolve : 23min.