DNS resolution error on some machines

Incident Report for Fasterize

Postmortem

Description de l'incident

Note : L’incident suivant est relatif au datacenter situé chez AWS (euwest1).

Le mercredi 22 janvier 2020 entre 19h et 20h30, un problème de résolution DNS a été identifié sur l’ensemble des machines hébergées sur une de nos trois zones de disponibilité de Paris. Le système de supervision indique que pendant cette durée 6,24% des requêtes à l’origine ont échoué.

Les machines présentes dans cette zone utilisant toutes le DNS interne d’AWS (censé être hautement disponible / redondé), elles ne pouvaient plus se connecter aux serveurs d’origine des clients. AWS a déclaré un problème de connectivité sur la zone incriminée sur sa page de status.

Après identification de l’incident, nous avons modifié la configuration de nos machines pour utiliser un autre service public DNS afin de maintenir le service dans l’attente de la résolution de l’incident côte hébergeur.

L’absence de résolution DNS ne permettait pas d’avoir une vision en temps réel et fiable de l’état du système (logs et métriques). A partir du moment où nous avons modifié les resolvers DNS, le système de supervision a commencé à rattraper le retard de logs et de métriques. Tant que ce retard n’était pas comblé, nous n’avions pas une vision temps réel des erreurs émises par la plateforme via nos système de logs et de collecte de métriques.

En l’absence de supervision et de logs et suite à nos tests manuels, nous avons pensé à tort que la correction était suffisante. Il s'avère, après analyse, que les serveurs HTTP impactés n’ont pas correctement pris en compte le changement, utilisant leur propre configuration de resolver.

La fin de l’incident correspond à la remise en état du service DNS par AWS.

Plan d'actions

Court terme :

améliorer la disponibilité de notre système de résolution en évitant de dépendre d’un unique acteur
révision du système de métrique pour fiabiliser la vision temps réel de la plateforme

Moyen terme :

amélioration de la prise en compte automatique d’une panne au niveau de la couche responsable de la communication avec les origines

Posted Jan 23, 2020 - 13:11 CET

Resolved

This incident is now resolved.
From AWS :
"10:25 AM PST We are investigating an issue which is affecting internet connectivity to a single availability zone in EU-WEST-3 Region.
11:05 AM PST We have identified the root cause of the issue that is affecting connectivity to a single availability zone in EU-WEST-3 Region and continue to work towards resolution.
11:45 AM PST Between 10:00 AM and 11:28 AM PST we experienced an issue affecting network connectivity to AWS services in a single Availability Zone in EU-WEST-3 Region. The issue has been resolved and connectivity has been restored."

Posted Jan 22, 2020 - 21:46 CET

Monitoring

AWS is working on the DNS resolution issue. The platform is behaving normally since the DNS resolver change.

Posted Jan 22, 2020 - 20:08 CET

Investigating

We detected an issue impacting the DNS resolution on some machines. We already fixed the issue by changing the DNS resolver. We are investigating why the DNS resolver is not working.

Posted Jan 22, 2020 - 19:49 CET

This incident affected: Acceleration.