Incident du 23/02/2017
Participants du post mortem : David, Anthony
Description de l'incident
A 10h30, la plateforme a émit un nombre anormal d'erreurs de résolution DNS et de connexion à l'origine.
Ce problème a impacté les domaines ayant une adresse IP de fallback erronée et augmenté le temps de traitement du moteur.
La cause identifiée de l'incident est la saturation du nombre de connexions broker-worker suite à une mise à jour de la configuration du moteur.
Faits et Timeline
- 10h30 : Mise à jour de la configuration du moteur pour supprimer des suffixes de domaines non utilisés
- 11h00 : Correction de la liste des suffixes pour supprimer des erreurs 535 (Host not found)
- 11h45 : Détection de résolutions DNS intermitentes
- 12h05 : Mail support d'un client impacté
- 12h35 : Identification du problème de connexions broker - worker
- 12h35 : Redémarrage des workers
- 12h42 : Réintroduction d'erreurs 535 (Host not found)
- 13h05 : Ré-application de la correction de la configuration du moteur
- 13h05 : Redémarrage des workers - fin de l'incident
Métriques
- Sévérité 2 : dégradation du site, problème de performance avec
difficulté de contourner impactant un nombre significatif d'utilisateur
- Time to detect : 1h15
- Time to resolve : 2h35
Impacts
- Nombre de sites impactés par les erreurs : 12
- Nombre de sites impactés par une légère dégradation des performances : l'ensemble des sites
Contre mesures
- Correction du système d'alerte qui n'a pas remonté l'incident
- Investigation et correction de la root cause
- Automatiser la mise à jour les adresses IP de fallback