One internal DNS server behave abnormally
Incident Report for Fasterize
Postmortem

Incident du 23/02/2017

Participants du post mortem : David, Anthony

Description de l'incident

A 10h30, la plateforme a émit un nombre anormal d'erreurs de résolution DNS et de connexion à l'origine.

Ce problème a impacté les domaines ayant une adresse IP de fallback erronée et augmenté le temps de traitement du moteur.

La cause identifiée de l'incident est la saturation du nombre de connexions broker-worker suite à une mise à jour de la configuration du moteur.

Faits et Timeline

  • 10h30 : Mise à jour de la configuration du moteur pour supprimer des suffixes de domaines non utilisés
  • 11h00 : Correction de la liste des suffixes pour supprimer des erreurs 535 (Host not found)
  • 11h45 : Détection de résolutions DNS intermitentes
  • 12h05 : Mail support d'un client impacté
  • 12h35 : Identification du problème de connexions broker - worker
  • 12h35 : Redémarrage des workers
  • 12h42 : Réintroduction d'erreurs 535 (Host not found)
  • 13h05 : Ré-application de la correction de la configuration du moteur
  • 13h05 : Redémarrage des workers - fin de l'incident

Métriques

  • Sévérité 2 : dégradation du site, problème de performance avec difficulté de contourner impactant un nombre significatif d'utilisateur
  • Time to detect : 1h15
  • Time to resolve : 2h35

Impacts

  • Nombre de sites impactés par les erreurs : 12
  • Nombre de sites impactés par une légère dégradation des performances : l'ensemble des sites

Contre mesures

  • Correction du système d'alerte qui n'a pas remonté l'incident
  • Investigation et correction de la root cause
  • Automatiser la mise à jour les adresses IP de fallback
Posted Feb 23, 2017 - 17:05 CET

Resolved
We restarted our workers to resolve the problem.
We will write a postmortem on this incident.
Posted Feb 23, 2017 - 12:41 CET
Identified
We identified the cause : there is a saturation of available files between proxy and workers.
Posted Feb 23, 2017 - 12:40 CET
Investigating
We are investigating DNS resolution issue
Posted Feb 23, 2017 - 12:15 CET