Um datacenter da Amazon no norte da Virgínia, nos Estados Unidos, apresentou problemas na terça-feira (28), quando o serviço de armazenamento S3 ficou indisponível por várias horas. A queda afetou grandes companhias que confiam na estrutura da Amazon para prover seus serviços, como Quora, Trello, Slack e Wix. Agora, a empresa de nuvem explicou a causa da falha: um erro de digitação.

Um relatório foi publicado no site do Amazon AWS para detalhar a interrupção do S3 na região US-EAST–1. Segundo a Amazon, um funcionário autorizado executou um comando de rotina às 15h37 (horário de Brasília) para remover um pequeno número de servidores do S3. No entanto, “infelizmente, uma das entradas do comando foi digitada incorretamente e o número de servidores removidos foi maior que o esperado”.

Isso gerou um efeito cascata. Primeiro, o subsistema responsável por guardar a localização e os metadados dos arquivos do S3 caiu. Depois, o subsistema que permite enviar novos arquivos para a Amazon parou de funcionar, já que ele dependia do funcionamento do primeiro. Os poucos servidores que restaram não eram suficientes para suprir a demanda do S3, por isso, o sistema teve que ser reiniciado. E enquanto o serviço era reiniciado, não havia como atender a nenhuma requisição.

O serviço foi totalmente restaurado às 18h54, mas o problema foi tão grave que gerou situações inusitadas: a Amazon não conseguia manter os clientes informados sobre a queda no S3 por meio do Service Health Dashboard, porque o painel de controle da ferramenta ficava hospedado no S3. Até o Is It Down Right Now, que mostra quando um site está fora do ar, estava fora do ar.

A Amazon diz que fez mudanças em seus processos para evitar que o problema ocorra novamente. Agora, a ferramenta interna não permite a remoção de capacidade tão rapidamente e foi atualizada para prevenir que um funcionário consiga remover mais servidores que o possível para manter o serviço operando. Além disso, a Amazon vai auditar suas outras ferramentas para garantir que todas possuam esses mecanismos de segurança.

Felizmente, a queda no Amazon S3 não passou de um inconveniente que durou poucas horas. Mas é meio assustador quando a gente percebe a enorme quantidade de serviços que depende de uma única empresa para funcionar.

Comentários

Envie uma pergunta

Os mais notáveis

Comentários com a maior pontuação

Matheus Alexandre
Já resolvi o problema. Tive que colocar o DNS do google no roteador. agora está legal! Valeu, amigo!
Marnei Maximiano
O senhor já verificou se o cabo Ethernet estava conectado no roteador?
Douglas Oliveira
Melhor que ficar acompanhando o site diretamente.
Diego
Queria ver a cara do indivíduo quando percebeu que estava em production e não em staging. Aposto que as luzes do prédio piscaram, tipo quando está prestes a acabar.
Renato Rodrigues
Pqp! Vc escreveu oq pensei! hahaha! Sdds Yahoo Pipes...
Emerson Ângelo
"O serviço foi totalmente restaurado às 18h54, mas o problema foi tão grave que gerou situações inusitadas: a Amazon não conseguia manter os clientes informados sobre a queda no S3 por meio do Service Health Dashboard, porque o painel de controle da ferramenta ficava hospedado no S3. Até o Is It Down Right Now, que mostra quando um site está fora do ar, estava fora do ar." Eu rir que só quando li essa parte. kkkkkkkkkkk
WoLfulus
E... ?
Diego Luiz
A empresa que eu trampo não saiu do ar.. Nem por 1 segundo :)
Marcelo Rodrigues
O S3 é um dos diversos serviços, de fato, no ecosistema da AWS, porém, é um dos, senão o mais USADO. Foi o primeiro serviço lançado pela Amazon. É importante lembrar que muitas empresas que fornecem tecnologia, usam a infra-estrutura da Amazon, de forma transparente. Por aí já dá pra calcular o efeito cascata da coisa.
João

RSS em pleno 2017? Bons tempos hhuahuauha.

Joaomanoel
RSS em pleno 2017? Bons tempos hhuahuauha.
Cortana ✔

Azure!

Cortana
Azure!
Gustave Dupré
Esse título me parece um tanto injusto já que segundo uma pesquisa do Gartner revelou que a Amazon é responsável por 31% do mercado de infraestrutura em nuvem, porém o serviço que deu problema é o S3, um dos diversos serviços da AWS, então não acredito que sozinha ela seja responsável por mais de 10% da internet quando menos derrubar o resto da internet . Acho até um tanto exagerado esses 10%. Claro que não tenho dados que corroborem a minha opinião, porém no trabalho utilizamos o Glacier da AWS, cujo o custo é alto, mas muito mais atrativo que a concorrência, agora para hospedar aplicações Web utilizamos os serviços da concorrência que é bem mais atrativo. De qualquer forma, conteúdo do artigo está ótimo e muito informativo, bem melhor que de um certo blog ai cujo o título foi "Como um erro da Amazon pode destruir a internet" e no artigo afirma que a queda da AWS poderia ser responsável por 1 terço da internet.
vitorgga
Estagiário sempre
Exibir mais comentários