Erreurs 502 émises par la couche de proxies.
Incident Report for Fasterize
Postmortem

Le 08/01/2020, jour de l’ouverture des soldes d’hiver 2020, la plateforme a émis des erreurs 502 entre 8h05 et 10h25.

Les erreurs ont été principalement émises sur 2 périodes :

  • 9h15 à 9h35
  • 9h50 à 10h30

Notre couche de proxys a été saturée par le très fort trafic de la matinée, et par intermittence, plus aucun proxy ne répondait à nos fronts. Il s’agit de la première source d’erreurs 502. De la même manière, notre couche de frontaux a aussi été indisponible par intermittence. Le CDN a alors émis des erreurs 502. Il s’agit de la seconde source d’erreurs 502.

Au plus fort des 2 pics d'erreurs, il y a eu jusqu'à 9% d'erreurs.

À 9h30, un nouveau serveur proxy et un nouveau serveur front sont prêts à être ajoutés mais cela ne suffit pas pour soulager les autres serveurs. Tous les serveurs proxys et fronts sont alors upscalés un par un et les couches de front et de proxy sont de nouveau 100% disponible à 10h25.

Il reste ensuite quelques erreurs 502 générées (< 0.2%) par le dernier serveur front ajouté qui n'a pas été déployé convenablement. Ce serveur est sorti du load balancer une fois identifié comme la cause de ces erreurs à 11h50.

Contre mesures :

  • déjà appliqué :

    • notre infrastructure à été upscalée et peut absorber plus de 2 fois le trafic de la matinée.
    • le script de déploiement d'un nouveau serveur front a été corrigé
  • court terme :

    • le sizing des prochains événements sera plus pessimiste
    • des VM prêtes à l'emploi seront mises à disposition pour une augmentation de capacité plus rapide
    • correction de l'alerte de disponibilité de notre couche de front
    • correction des derniers cas qui génèrent des erreurs HTTP 502 au lieu de 592 pour faciliter l'identification de la source des erreurs et pour profiter de notre système de failover HTTP qui s'appuie sur le code 592.
  • moyen terme :

    • auto-scaling de la couche de workers
    • mise en place d'un système de failover HTTP au niveau du CDN en cas d'indisponibilité intermittente du moteur de Fasterize
  • long terme :

    • auto-scaling de nos couches de proxys et frontaux
Posted Jan 08, 2020 - 18:29 CET

Resolved
Nous avons terminé d'augmenter les capacités de nos proxies. Nous ne constatons plus d'erreur 502 provenant de notre plateforme depuis 10h25.
Posted Jan 08, 2020 - 10:25 CET
Identified
Notre équipe technique a identifié une saturation au niveau de la couche de proxys qui peut amener à des erreurs 502 sur votre site depuis 9h53
Nous comptabilisons 0.9% d’erreurs 502 sur la dernière heure sur l'ensemble de notre trafic.
Notre équipe est en train d’augmenter la capacité de cette couche et nous prévoyons un retour à la normal d’ici une heure.
Veuillez nous excuser pour la gêne occasionnée.
Posted Jan 08, 2020 - 09:53 CET
This incident affected: Acceleration.