Date du post mortem : 25/10/2018
L’incident est une hausse du temps passé dans le moteur d’optimisation et du nombre de tâches non traitées par le moteur.
Après analyse, le problème vient d’une saturation de la bande passante entrante (transmise par les origines) au niveau des Proxys. La bande passante réseau des Proxys étant saturée, cela a fortement perturbé la communication entre Proxys et Workers. Ce qui a généré une augmentation des retransmissions TCP réseaux entre les Workers et les Proxys. Ce phénomène a aggravé le problème étant donné que cela a généré d’autant plus d’échanges réseaux. Au final, la transmission des tâches d’optimisations aux workers traitant les ressources à optimiser a été fortement ralentie.
La perturbation a eu lieu le 23/10/2018 entre 16h29 et 17h23.
Plusieurs éléments lors de l’incident :
* La hausse puis la saturation de la bande passante entrante est visible au niveau des Proxys. Elle concorde avec la retransmissions TCP massive des workers.
* Pendant cet interval, la plateforme a absorbé le téléchargement de ressources lourdes de types vidéo (MP4 de 200 mo), et de fichiers XML de flux RSS très volumineux (300 mo), et ce à plusieurs reprises, en plus du trafic habituel. * L’augmentation du nombre de redistributions des tâches au Workers a aggravé le phénomène.
* On note une augmentation du nombre de tâches abandonnées car non distribuées aux workers dans le temps imparti (100ms).
L’impact client est une augmentation du temps de traitement des optimisations par la plateforme, voire pendant un certain temps l’annulation de tâches d’optimisation afin d’absorber le pic.
La sévérité de l’incident est 2 : problème de performance impactant un nombre significatif d'utilisateur.
Time to detect : 2 minutes grâce aux alertes automatiques.
Time to resolve : 1H. Le temps de faire absorber le trafic par la plateforme et d’annuler les tâches non prioritaires.