Performance degradation
Incident Report for Fasterize
Postmortem

Incident du 23/10/2018 de 16H30 à 17H30

Date du post mortem :  25/10/2018

Description de l'incident

L’incident est une hausse du temps passé dans le moteur d’optimisation et du nombre de tâches non traitées par le moteur.

Après analyse, le problème vient d’une saturation de la bande passante entrante (transmise par les origines) au niveau des Proxys. La bande passante réseau des Proxys étant saturée, cela a fortement perturbé la communication entre Proxys et Workers. Ce qui a généré une augmentation des retransmissions TCP réseaux entre les Workers et les Proxys. Ce phénomène a aggravé le problème étant donné que cela a généré d’autant plus d’échanges réseaux. Au final, la transmission des tâches d’optimisations aux workers traitant les ressources à optimiser a été fortement ralentie.

Faits et Timeline

La perturbation a eu lieu le 23/10/2018 entre 16h29 et 17h23.

Plusieurs éléments lors de l’incident :

  • Le nombre de requêtes et d’optimisation à traiter était stable.

* La hausse puis la saturation de la bande passante entrante est visible au niveau des Proxys. Elle concorde avec la retransmissions TCP massive des workers.

* Pendant cet interval, la plateforme a absorbé le téléchargement de ressources lourdes de types vidéo (MP4 de 200 mo), et de fichiers XML de flux RSS très volumineux (300 mo), et ce à plusieurs reprises, en plus du trafic habituel. * L’augmentation du nombre de redistributions des tâches au Workers a aggravé le phénomène.

* On note une augmentation du nombre de tâches abandonnées car non distribuées aux workers dans le temps imparti (100ms).

L’impact client est une augmentation du temps de traitement des optimisations par la plateforme, voire pendant un certain temps l’annulation de tâches d’optimisation afin d’absorber le pic.

Métriques

La sévérité de l’incident est 2 : problème de performance impactant un nombre significatif d'utilisateur.

Time to detect : 2 minutes grâce aux alertes automatiques.

Time to resolve : 1H. Le temps de faire absorber le trafic par la plateforme et d’annuler les tâches non prioritaires.

Contre mesures

  • Augmentation de la capacité des Proxys (en nombre de machines et en bande passante allouée).
  • Mise en place d’un système pour ne pas télécharger les fichiers trop volumineux, de nombreux fichiers du type sont ressorti pendant l’analyse, pouvant aller jusqu’à 300mo.
  • Optimisation de la transmission entre les Proxys et les Workers lors de surcharge ou dégradation du réseaux.
Posted Oct 25, 2018 - 17:34 CEST

Resolved
This incident has been resolved at 5:15pm (UTC+2). Sorry for the inconvenience.
Posted Oct 23, 2018 - 17:37 CEST
Investigating
Since 4:45pm (UTC+2), we have some issues on our european infrastructure affecting global processing overhead. Being fixed. Slight impact on acceleration. Some pages can have some slowdowns (t be optimized.
Posted Oct 23, 2018 - 17:20 CEST
This incident affected: Acceleration.