Network connectivity issue
Incident Report for Fasterize
Postmortem

Description de l'incident

Une coupure réseau intermittente est survenue au niveau de notre hébergeur Scaleway entre 6:59:30 et 7:08:00. Des clients ont subi une interruption de service.

Information de scaleway

https://status.scaleway.com/incident/306

Part of the traffic lost on our public facing network due to crash of one of our backbone device during basic ops.

There was one deconnection, it is now stabilized, we are monitoring the network to prevent it to happen again. Our teams are investigating the issue with constructor.

Notre système de monitoring de la plateforme a détecté l’indisponibilité partielle de plusieurs serveurs front et du CDN KeyCDN.

L’indisponibilité via KeyCDN a été suffisamment franche pour déclencher la bascule automatique DNS vers les origines.

Le début de prise en compte du nouveau routage par les résolveurs DNS est fixé à 20 secs. Cela a donc réduit le trafic sur le CDN. KeyCDN nous a aussi indiqué qu’une partie du trafic a été pris en charge par leur point de présence d’Amsterdam.

L’indisponibilité sur les frontaux de la plateforme Fasterize n’a pas été suffisamment franche pour déclencher la bascule automatique DNS vers les origines. Elle a été perçue sur trois des six frontaux de façon partielle. Les clients branchés directement sur la plateforme ont donc subi des ralentissements et coupures réseau pendant cet incident.

L’alerting a partiellement fonctionné pendant l’incident. Trois alertes indirectes ont été levées entre 7h03 et 7h10 et ont été prises en compte par un membre de l’équipe d’astreinte. Cependant, les alertes sur le système de bascule DNS n’ont pas toutes été levées.

Métriques

* Niveaux de sévérité de l'incident :

Sévérité 1: arrêt du site non planifié qui affecte un nombre significatif d'utilisateurs

* Time to detect : 3 minutes et 30 secondes

* Time to resolve : 8 minutes et 30 secondes

Impacts

Tous les clients ont été impactés par l’incident. L’indisponibilité, vue par nos sondes externes, varie entre une et dix minutes selon les sites. Les clients les plus impactés ont été les clients branchés directement à Fasterize.

Contre mesures

Court terme

Contrôler l’alerte sur le basculement DNS à l’origine

Long terme

La mise en place de notre nouvelle plateforme prévue mi-2019 sera plus résiliente avec une haute disponibilité sur plusieurs datacenters. (https://www.fasterize.com/fr/blog/fasterize-poursuit-investissements-plus-de-stabilite/)

Posted Mar 12, 2019 - 14:00 CET

Resolved
Our main hosting provider has encountered network connectivity issues that impact the behaviour of our optimization engine.
Posted Mar 12, 2019 - 07:00 CET