Início » Negócios » Um erro de digitação derrubou o Amazon S3 e o resto da internet

Um erro de digitação derrubou o Amazon S3 e o resto da internet

Paulo Higa Por

Um datacenter da Amazon no norte da Virgínia, nos Estados Unidos, apresentou problemas na terça-feira (28), quando o serviço de armazenamento S3 ficou indisponível por várias horas. A queda afetou grandes companhias que confiam na estrutura da Amazon para prover seus serviços, como Quora, Trello, Slack e Wix. Agora, a empresa de nuvem explicou a causa da falha: um erro de digitação.

Um relatório foi publicado no site do Amazon AWS para detalhar a interrupção do S3 na região US-EAST–1. Segundo a Amazon, um funcionário autorizado executou um comando de rotina às 15h37 (horário de Brasília) para remover um pequeno número de servidores do S3. No entanto, “infelizmente, uma das entradas do comando foi digitada incorretamente e o número de servidores removidos foi maior que o esperado”.

Isso gerou um efeito cascata. Primeiro, o subsistema responsável por guardar a localização e os metadados dos arquivos do S3 caiu. Depois, o subsistema que permite enviar novos arquivos para a Amazon parou de funcionar, já que ele dependia do funcionamento do primeiro. Os poucos servidores que restaram não eram suficientes para suprir a demanda do S3, por isso, o sistema teve que ser reiniciado. E enquanto o serviço era reiniciado, não havia como atender a nenhuma requisição.

O serviço foi totalmente restaurado às 18h54, mas o problema foi tão grave que gerou situações inusitadas: a Amazon não conseguia manter os clientes informados sobre a queda no S3 por meio do Service Health Dashboard, porque o painel de controle da ferramenta ficava hospedado no S3. Até o Is It Down Right Now, que mostra quando um site está fora do ar, estava fora do ar.

A Amazon diz que fez mudanças em seus processos para evitar que o problema ocorra novamente. Agora, a ferramenta interna não permite a remoção de capacidade tão rapidamente e foi atualizada para prevenir que um funcionário consiga remover mais servidores que o possível para manter o serviço operando. Além disso, a Amazon vai auditar suas outras ferramentas para garantir que todas possuam esses mecanismos de segurança.

Felizmente, a queda no Amazon S3 não passou de um inconveniente que durou poucas horas. Mas é meio assustador quando a gente percebe a enorme quantidade de serviços que depende de uma única empresa para funcionar.

Mais sobre: ,

Comentários

Envie uma pergunta

Os mais notáveis

Comentários com a maior pontuação

Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Thiago Elias
https://www.baidu.com/link?...
Renato Rodrigues
https://goo.gl/DczvkG
Renato Rodrigues
https://goo.gl/Bb2eJZ
Renato Rodrigues
https://goo.gl/HHWSRg
Renato Rodrigues
https://goo.gl/nbv45x
Renato Rodrigues
https://goo.gl/JWTzun
Renato Rodrigues
https://goo.gl/Vh7bZq
Renato Rodrigues
https://goo.gl/6rcpnF
Renato Rodrigues
https://goo.gl/usuQ7y
Renato Rodrigues
https://goo.gl/7sssL8
Renato Rodrigues
https://goo.gl/pYZock
Renato Rodrigues
https://goo.gl/D7Sdnq
Renato Rodrigues
https://goo.gl/8m7Fsw
Renato Rodrigues
https://goo.gl/4mQ13G
Renato Rodrigues
https://goo.gl/bPwDvu
Renato Rodrigues
https://goo.gl/kBBuBx
Renato Rodrigues
https://goo.gl/nAHH2g
Renato Rodrigues
https://goo.gl/2mdaFZ
Renato Rodrigues
https://goo.gl/CifiPR
Renato Rodrigues
https://goo.gl/9w7enS
Matheus Alexandre
Já resolvi o problema. Tive que colocar o DNS do google no roteador.

agora está legal!


Valeu, amigo!
Marnei Maximiano
O senhor já verificou se o cabo Ethernet estava conectado no roteador?
Douglas Oliveira
Melhor que ficar acompanhando o site diretamente.
Diego
Queria ver a cara do indivíduo quando percebeu que estava em production e não em staging.

Aposto que as luzes do prédio piscaram, tipo quando está prestes a acabar.
Renato Rodrigues
Pqp! Vc escreveu oq pensei! hahaha! Sdds Yahoo Pipes...
Emerson Ângelo
"O serviço foi totalmente restaurado às 18h54, mas o problema foi tão grave que gerou situações inusitadas: a Amazon não conseguia manter os clientes informados sobre a queda no S3 por meio do Service Health Dashboard, porque o painel de controle da ferramenta ficava hospedado no S3. Até o Is It Down Right Now, que mostra quando um site está fora do ar, estava fora do ar."

Eu rir que só quando li essa parte. kkkkkkkkkkk
WoLfulus
E... ?
Diego Luiz
A empresa que eu trampo não saiu do ar..
Nem por 1 segundo :)
Marcelo Rodrigues
O S3 é um dos diversos serviços, de fato, no ecosistema da AWS, porém, é um dos, senão o mais USADO. Foi o primeiro serviço lançado pela Amazon. É importante lembrar que muitas empresas que fornecem tecnologia, usam a infra-estrutura da Amazon, de forma transparente. Por aí já dá pra calcular o efeito cascata da coisa.
João
RSS em pleno 2017? Bons tempos hhuahuauha.
Joaomanoel
RSS em pleno 2017? Bons tempos hhuahuauha.
Cortana ✔
Azure!
Cortana
Azure!
Gustave Dupré
Esse título me parece um tanto injusto já que segundo uma pesquisa do Gartner revelou que a Amazon é responsável por 31% do mercado de infraestrutura em nuvem, porém o serviço que deu problema é o S3, um dos diversos serviços da AWS, então não acredito que sozinha ela seja responsável por mais de 10% da internet quando menos derrubar o resto da internet . Acho até um tanto exagerado esses 10%.

Claro que não tenho dados que corroborem a minha opinião, porém no trabalho utilizamos o Glacier da AWS, cujo o custo é alto, mas muito mais atrativo que a concorrência, agora para hospedar aplicações Web utilizamos os serviços da concorrência que é bem mais atrativo.

De qualquer forma, conteúdo do artigo está ótimo e muito informativo, bem melhor que de um certo blog ai cujo o título foi "Como um erro da Amazon pode destruir a internet" e no artigo afirma que a queda da AWS poderia ser responsável por 1 terço da internet.
vitorgga
Estagiário sempre
Diego Struk Chagas
Se é que foi uma cagadinha. Não vao admitir que foi ataque hacker, é melhor admitir cagada do que atacke, por vunerabilidade.
Paulo
Não foi apenas um inconveniente, para muitos foi prejuízo por não estar tendo visualizações.
Bruno Aveiro
O RSS do TB está com problema? Os posts de hoje não atualizaram em tempo real.
Está com pelo menos umas 12 horas de atraso no com o Feedly. =/
A coisa
Quem nunca? hahahaMentira, nunca fiz uma coisa dessa, mas já vi muitos colegas de trabalho fazerem coisas parecidas. tipo sudo rm -rf / e coisas do tipo.
Leandro
Quem nunca? hahaha

Mentira, nunca fiz uma coisa dessa, mas já vi muitos colegas de trabalho fazerem coisas parecidas. tipo sudo rm -rf / e coisas do tipo.
Matheus Alexandre
O Google.com não estava funcionando aqui pela manhã.
João Silverado
Lendo a notícia, comecei a lembrar do primeiro Jurassic Park, talvez pq foi tiveram que reiniciar o sistema e também como o texto foi escrito, meio que narrando os fatos, sei lá.
Thiago Elias
Boa rsrsrs
Marcelo
Queremos detalhes tambem da queda do Tecnoblog...rsss
luizalbertotj
Fizeram um Rollback de 30 horas nos servidores do ARK por causa dessa falha :(
Diego F. Duarte
Na verdade nao... Isso foi mais uma falha do processo em si do que um erro humano. O kra deveria ter sido + atencioso e certamente puxaram a orelha dele por isso, mas falar q ele foi demitido, nao e tao provavel. Amazon jogou no funcionario pq foi ele q triggou o problema, mas no fim foram VARIAS coisas....

Bem, as coisas funcionam um pouco diferente em empresas (serias) de TI
Paloma
Certamente, não faz sentido o sistema que informa de queda em um servidor ficar no servidor monitorado!
David
Se um único funcionário com um comando consegue derrubar o ' resto da internet', então a falha é da empresa.
Murilo Rafael De Mello
Em empresas sérias, como acredito que a Amazon seja, acredito que esse não seria o caso. O processo deveria ter sido desenhado para evitar esse tipo de problema, então o problema é um pouco mais embaixo.
Anderson
Esse mercado é tão competitivo com Microsoft, Amazon, Google, Salesforce e outras brigando por cada cliente que uma notícias dessas faz a Amazon perder muitos pontos na tentativa de aumentar sua carteira.
Caleb Enyawbruce
Obviamente o sistema que avisa o que está up or down deveria ficar totalmente isolado. Nem precisa pensar pra saber isso.
Ramon Gonzalez
Obviamente o sistema que avisa o que está up or down deveria ficar totalmente isolado. Nem precisa pensar pra saber isso.
Rodrigo Sena
Se fosse no Brasil se ele fosse demitido, o funcionário ainda ia entrar com processo!
Ítalo Menezes
demitido.