We are facing troubles with our SSL servers
Incident Report for Fasterize
Postmortem

Incident du 20/03/2017

Date du post mortem : 21/03/2017

Participants du post mortem : David, Chakib, Anthony

Description de l'incident

Coupure du trafic SSL dû à l'introduction d'une mauvaise configuration des fronts SSL lors du déploiement de nouveaux certificats.

La cause identifiée de l'incident est le fait que la mise à jour partielle de la configuration SSL a introduit des changements incompatibles avec la configuration en place.

Faits et Timeline

A 17h52, mise à jour des certificats SSL pour un client.

A 17h58, un ticket au support indique le problème d'erreurs 502.

A 18h00, identification de la nature du problème lié à l'HTTPS. Les graphs de trafic HTTPS ont brutalement chutés.

A 18h08, annonce de l'incident sur status.fasterize.com.

Entre 17h58 et 18h20, traitement de tickets au support relatif au problème.

A 18h10, bascule forcée manuellement vers les origines des clients.

A 18h12, alerte du problème via notre système de monitoring.

A 18h15, un hot fix est appliqué sur les fronts pour rétablir une configuration correcte.

A 18h15, bascule du trafic vers la plateforme Fasterize.

A 18h19, mise à jour du status de l'incident à "résolu".

A 18h25, détection d'un problème de connexion workers / brokers suite au débranchement du trafic de 18h10.

Entre 18h45 et 19h09, redémarrage progressif de l'ensemble des workers pour rétablir des connexions avec les brokers.

Métriques

Sévérité 1 : arrêt du site non planifié qui affecte un nombre significatif d'utilisateurs

Time to detect : 6min

Time to resolve : 23min.

Contre mesures

  • Correction d'une corruption possible des fichiers de configuration pour les certificats LetsEncrypt.
  • Amélioration de la couverture des tests pour détecter le problème lors du déploiement des certificats SSL sur les environnements de recette.
  • Amélioration des sondes pour prendre en compte le status de la terminaison SSL.
  • S'assurer que le déploiement sur l'environnement de production est bloqué en cas de problème détecté sur l'environnement de recette.
  • Créer une issue pour grapher le nombre de connexions ouvertes
  • Priorisation de la correction de la mise à jour des origines.
  • Amélioration de la priorisation des issues liés au PostMortem
Posted Mar 21, 2017 - 11:55 CET

Resolved
Our configuration of our front SSL has been fixed.
The situation is back to normal. We will write a post mortem.
Posted Mar 20, 2017 - 18:19 CET
Update
We have disabled Fasterize and all traffic will be re-router to your origins
Posted Mar 20, 2017 - 18:12 CET
Investigating
We are currently investigating this issue.
Posted Mar 20, 2017 - 18:08 CET