Une coupure réseau intermittente est survenue au niveau de notre hébergeur Scaleway entre 6:59:30 et 7:08:00. Des clients ont subi une interruption de service.
https://status.scaleway.com/incident/306
Part of the traffic lost on our public facing network due to crash of one of our backbone device during basic ops.
There was one deconnection, it is now stabilized, we are monitoring the network to prevent it to happen again. Our teams are investigating the issue with constructor.
Notre système de monitoring de la plateforme a détecté l’indisponibilité partielle de plusieurs serveurs front et du CDN KeyCDN.
L’indisponibilité via KeyCDN a été suffisamment franche pour déclencher la bascule automatique DNS vers les origines.
Le début de prise en compte du nouveau routage par les résolveurs DNS est fixé à 20 secs. Cela a donc réduit le trafic sur le CDN. KeyCDN nous a aussi indiqué qu’une partie du trafic a été pris en charge par leur point de présence d’Amsterdam.
L’indisponibilité sur les frontaux de la plateforme Fasterize n’a pas été suffisamment franche pour déclencher la bascule automatique DNS vers les origines. Elle a été perçue sur trois des six frontaux de façon partielle. Les clients branchés directement sur la plateforme ont donc subi des ralentissements et coupures réseau pendant cet incident.
L’alerting a partiellement fonctionné pendant l’incident. Trois alertes indirectes ont été levées entre 7h03 et 7h10 et ont été prises en compte par un membre de l’équipe d’astreinte. Cependant, les alertes sur le système de bascule DNS n’ont pas toutes été levées.
* Niveaux de sévérité de l'incident :
Sévérité 1: arrêt du site non planifié qui affecte un nombre significatif d'utilisateurs
* Time to detect : 3 minutes et 30 secondes
* Time to resolve : 8 minutes et 30 secondes
Tous les clients ont été impactés par l’incident. L’indisponibilité, vue par nos sondes externes, varie entre une et dix minutes selon les sites. Les clients les plus impactés ont été les clients branchés directement à Fasterize.
Court terme
Contrôler l’alerte sur le basculement DNS à l’origine
Long terme
La mise en place de notre nouvelle plateforme prévue mi-2019 sera plus résiliente avec une haute disponibilité sur plusieurs datacenters. (https://www.fasterize.com/fr/blog/fasterize-poursuit-investissements-plus-de-stabilite/)