Um erro de digitação derrubou o Amazon S3 e o resto da internet

Paulo Higa
Por
• Atualizado há 1 semana
AWS (Imagem: Divulgação/Amazon France)

Um datacenter da Amazon no norte da Virgínia, nos Estados Unidos, apresentou problemas na terça-feira (28), quando o serviço de armazenamento S3 ficou indisponível por várias horas. A queda afetou grandes companhias que confiam na estrutura da Amazon para prover seus serviços, como Quora, Trello, Slack e Wix. Agora, a empresa de nuvem explicou a causa da falha: um erro de digitação.

Um relatório foi publicado no site do Amazon AWS para detalhar a interrupção do S3 na região US-EAST–1. Segundo a Amazon, um funcionário autorizado executou um comando de rotina às 15h37 (horário de Brasília) para remover um pequeno número de servidores do S3. No entanto, “infelizmente, uma das entradas do comando foi digitada incorretamente e o número de servidores removidos foi maior que o esperado”.

Isso gerou um efeito cascata. Primeiro, o subsistema responsável por guardar a localização e os metadados dos arquivos do S3 caiu. Depois, o subsistema que permite enviar novos arquivos para a Amazon parou de funcionar, já que ele dependia do funcionamento do primeiro. Os poucos servidores que restaram não eram suficientes para suprir a demanda do S3, por isso, o sistema teve que ser reiniciado. E enquanto o serviço era reiniciado, não havia como atender a nenhuma requisição.

O serviço foi totalmente restaurado às 18h54, mas o problema foi tão grave que gerou situações inusitadas: a Amazon não conseguia manter os clientes informados sobre a queda no S3 por meio do Service Health Dashboard, porque o painel de controle da ferramenta ficava hospedado no S3. Até o Is It Down Right Now, que mostra quando um site está fora do ar, estava fora do ar.

A Amazon diz que fez mudanças em seus processos para evitar que o problema ocorra novamente. Agora, a ferramenta interna não permite a remoção de capacidade tão rapidamente e foi atualizada para prevenir que um funcionário consiga remover mais servidores que o possível para manter o serviço operando. Além disso, a Amazon vai auditar suas outras ferramentas para garantir que todas possuam esses mecanismos de segurança.

Felizmente, a queda no Amazon S3 não passou de um inconveniente que durou poucas horas. Mas é meio assustador quando a gente percebe a enorme quantidade de serviços que depende de uma única empresa para funcionar.

Receba mais notícias do Tecnoblog na sua caixa de entrada

* ao se inscrever você aceita a nossa política de privacidade
Newsletter
Paulo Higa

Paulo Higa

Ex-editor executivo

Paulo Higa é jornalista com MBA em Gestão pela FGV e uma década de experiência na cobertura de tecnologia. No Tecnoblog, atuou como editor-executivo e head de operações entre 2012 e 2023. Viajou para mais de 10 países para acompanhar eventos da indústria e já publicou 400 reviews de celulares, TVs e computadores. Foi coapresentador do Tecnocast e usa a desculpa de ser maratonista para testar wearables que ainda nem chegaram ao Brasil.

Relacionados