We are facing network troubles with our hosting provider
Incident Report for Fasterize
Postmortem

Notre hébergeur a coupé l’accès au serveur de Fasterize pour cause d’infraction à des droits d’auteurs d’un de nos clients. L’accès a été coupé au niveau de l’attribution d’adresses IP virtuelles attribuées aux machines frontales de Fasterize.

Faits

Le mercredi 20/09/17, Fasterize a reçu une alerte signalant qu’un des sites branchés à Fasterize vendait des produits contrefaits. Fasterize a aussitôt pris en compte l’alerte et y a répondu. Cependant, il s'avère que le site n’a pas été correctement débranché au niveau DNS à ce moment-là. L'hébergeur a décidé deux jours après l'alerte de retirer l’accès à ce site et donc de débrancher la plateforme Fasterize.

La coupure a eu lieu à 16h47.

Fasterize a reçu trois alertes à 16h51 (une pour le service de failover Cedexis, une pour celui de Route53, une à propos de la diminution brutale du trafic). Le trafic a alors été basculé sur les origines des clients en moins d’une minute. Fasterize a ensuite contacté le service professionnel de l'hébergeur pour comprendre le problème et rétablir le service au plus vite. Le service a été rétabli à 17h05 pour l’ensemble des clients.

Cependant, deux clients ont eu un problème lors de la bascule vers l’origine : - un client n’avait pas un enregistrement failover contenant la bonne origine. L’erreur a été introduite par une édition manuelle. - un autre client n’avait pas un certificat SSL valide à l’origine.

L’investigation qui a suivi a permis de comprendre la cause de la non prise en compte du débranchement. Elle vient de l’incompatibilité du système de failover avec des origines contenant une adresse IP.

Mesures

Temps de détection : 4 minutes (détection par notre système d'alerting) Temps de résolution : 20 minutes

Plan d’action :

  • contacter notre hébergeur afin de mettre au point un protocole d’intervention.
  • supporter les adresses IP en tant qu’origine. (déjà en cours)
  • améliorer la visibilité de l’état des configurations (validation de l’origine, du failover) pour prévenir les anomalies
  • proposer un débranchement DNS supervisé à nos clients pour valider le fonctionnement de la chaîne de failover
  • étudier l’intérêt actuel des VIPs
  • étudier l’ajout d’un nouvel hébergeur
  • avoir la possibilité de verrouiller un compte en cas d’abus constaté.
Posted Sep 25, 2017 - 15:22 CEST

Resolved
Network is now ok! Sorry for the inconvenience. Most of customers had little impacts on traffic during 5 minutes.
Posted Sep 22, 2017 - 17:15 CEST
Investigating
We are currently investigating this issue.
Posted Sep 22, 2017 - 16:57 CEST