DOS Attack
Incident Report for Fasterize
Postmortem

English version below

Incident du 21/05/2019

Date de l’incident : 21/05/2019 de 19h24 à 19h47.

Date du post mortem : 22/05/2019

Participants du post mortem : David Rousselie, Stéphane Rios, Mikael Robert

Description de l'incident

Une faille dans une fonctionnalité a permis à un attaquant de réaliser une attaque par amplification sur l’infrastructure Fasterize.

Cette attaque a permis de générer environ 2 millions de requêtes à partir de 2 requêtes forgées contenant des codes hexadécimaux et de multiples URL, via un domaine utilisant cette fonctionnalité.

Ce pic de trafic a totalement surchargé un de nos frontaux, et par transitivité nos proxys. Deux proxys ont vu leur charge significativement augmenter et se sont bloqués.

Les requêtes ont continué jusqu’au timeout configuré sur les proxys.

En parallèle nous avons detecté deux tentatives d’intrusions à répétition via SSH sur nos machines, provenant d’une IP en Chine et d’une autre en Angleterre. Nous avons immédiatement bloqué ces IP.

Aucun lien ne peut être fait à l’heure actuelle entre les 2 attaques.

Timeline

19:24 : Début des 502. Le trafic sur le site visé passe de ~15 requêtes/s à 3000.

19:31 : Alerte indiquant l’indisponibilité du frontal impacté. Sortie du frontal du pool.

19:34 : Début des timeout entre proxy et front

19:37 : Fin des 502. Tous les proxys sont de nouveaux up

19:38 : Un deuxième frontal a été sorti du pool pendant 1 minute.

19:39 : Retour du frontal dans le pool

19:47 : Fin des timeouts entre proxy et front

Métriques

* Niveaux de sévérité de l'incident :

Sévérité 1: arrêt du site non planifié qui affecte un nombre significatif d'utilisateurs

* Time to detect : 1 minute

* Time to resolve : 8 minutes.

Impacts

Tous les clients ont été impactés par l’incident. L’incident a généré 4,29 % des requêtes en erreur 502 dans l’intervalle de 19h24 à 19h37.

Contre-mesures

Court terme

  • Bloquer l’IP ayant émis les requêtes mal intentionnées

  • Désactiver la fonctionnalité incriminée chez tous les clients.

    • Correction de la faille dans nos proxys. Nous avons identifié dans les requêtes les éléments qui ont généré l’amplification.

Long terme

La mise en place de notre nouvelle plateforme prévue mi-2019 sera plus résiliente avec une haute disponibilité sur plusieurs datacenters, nous serons également protégés par une couche de sécurité plus élevée. (https://www.fasterize.com/fr/blog/fasterize-poursuit-investissements-plus-de-stabilite/)

Plan d'actions

Quoi/qui/quand

  • Bloquer l’IP de l’attaquant / Mikael / fait ce jour

  • Correction de la faille de sécurité dans nos proxys / David / en cours, sera déployée dès que possible. Nous informerons du déploiement via fasterize.status.com

  • Désactivation temporaire de la fonctionnalité chez tous les clients / Stef / fait ce jour

  • Déploiement nouvelle plateforme prévu courant 2019.

---------------------- English version ----------------------
Incident of 21/05/2019

Date of the incident: 21/05/2019 from 19:24 to 19:47.
Post mortem date: 22/05/2019

Post mortem participants: David Rousselie, Stéphane Rios, Mikael Robert

Description of the incident

A flaw in a feature allowed an attacker to perform an amplification attack on the Fasterize infrastructure.
This attack generated approximately 2 million queries from 2 forged queries containing hexadecimal codes and multiple URLs, using a domain that uses this feature.
This traffic spike has totally overloaded one of our front ends, and by transitivity our proxies. Two proxies saw their load significantly increase and got stuck.
The requests continued until the timeout configured on the proxies.

In parallel we have detected two attempts of repeated intrusions via SSH on our machines, coming from one IP in China and another in England. We immediately blocked these IPs.
No link can be made at the moment between the 2 attacks.

Timeline

19:24: Start of 502. The traffic on the targeted site goes from ~ 15 requests / s to 3000.
19:31: Alert indicating the unavailability of the frontal impacted. Front goes out of the pool.
19:34: Start of the timeout between proxy and front
19:37: End of 502. All proxies are now up
19:38: A second frontal was out of the pool for 1 minute.
19:39: Return of the frontal in the pool
19:47: End timeouts between proxy and front

Metrics

* Levels of severity of the incident:
Severity 1: Unplanned site shutdown that affects a significant number of users
* Time to detect: 1 minute
* Time to resolve: 8 minutes.

Impacts

All customers were impacted by the incident. The incident generated 4.29% of requests in error 502 in the 19:24 to 19:37 interval.

Countermeasures

Short term

  • Block the IP address that sent malicious requests
  • Disable the offending feature on all clients.
  • Fixed the flaw in our proxies. We identified in the queries the elements that generated the amplification.
    Long term
    The implementation of our new platform planned mid-2019 will be more resilient with high availability on several data centers, we will also be protected by a higher layer of security. (Https://www.fasterize.com/fr/blog/fasterize-poursuit-investissements-plus-de-stabilite/)

Action plan

What / who / when
- Block the IP of the attacker / Mikael / made this day
- Fixed security breach in our proxys / David / ongoing, will be deployed as soon as possible. We will inform of the deployment via fasterize.status.com
- Temporarily disabling functionality for all clients / Stef / done today
- Deployment new platform expected in 2019.

Posted May 22, 2019 - 22:30 CEST

Resolved
Une faille dans une de nos fonctionnalités a été exploitée pour générer une attaque par amplification.
L’incident a généré 4,29 % de requêtes en erreur 502 dans l’interval de 19h24 à 19h37.

La faille et l'attaquant ont été identifiés.
Nous avons bloqué l'IP ayant émis les requêtes mal intentionnées.
La correction de la faille est en cours. Nous avons identifié dans les requêtes de l'attaquant les éléments qui ont généré l’amplification.
Posted May 21, 2019 - 19:30 CEST