O AWS da Amazon é um serviço amplamente usado por diversas startups ligadas à web, principalmente por terem uma infraestrutura capaz de aguentar grandes quantidades de tráfego como também por serem barato (para empresas) e confiável. Mas quando problemas acontecem nos servidores de um serviço conhecido, os usuários rapidamente notam e reclamam. Foi o que aconteceu nessa sexta-feira com o Instagram e Foursquare, ambos hospedados no AWS da Amazon.
Durante a manhã dessa sexta-feira o Instagram ficou inacessível por pelo menos meia hora antes de voltar parcialmente ao ar tanto nos aplicativos quando na web, o que é um problema para um serviço que acaba de lançar novidades ligadas à interface web. Já o Foursquare confirmou no Facebook que está com problemas e continua sem sinal de vida desde pelo menos o as 11h de hoje até o momento em que esse post foi publicado.

Segundo a dashboard de status do AWS, o problema está especificamente em três servidores, todos localizados no estado americano de Virgínia do Norte. Eles apresentam, de acordo com os avisos da a empresa, “problemas de conectividade” ou de “latência elevada” que já estão sendo reparados.
Devido à falha nos servidores, usuários do Instagram podem receber avisos de erro 503 ao tentar acessar fotos na web, enquanto os usuários do Foursquare verão um aviso de erro se tentarem acessar o serviço nos aplicativos para Android ou iOS.
Não é sempre que vemos dois grandes serviços web sofrendo problemas em servidores ao mesmo tempo, mas serve para mostrar que nenhum servidor – por mais que tenha uma poderosa infraestrutura – é à prova de falhas. Enão é a primeira vez que isso acontece: o Foursquare, reddit e Hootsuit já foram afetados pela Amazon em abril do ano passado.
Atualização às 13:51 | O Instagram e Foursquare já estão novamente acessíveis, mas ainda restam dois servidores com problema no AWS.







Assine pelo iTunes
Assine pelo Feed

Azure neles!
Agora está explicado por eu não conseguir fazer check no meu Nokia 302… Achei que o problema estivesse no 3G TIM
O mesmo comigo… já estava a reclamar do 3G da Claro…
Se é da TIM provavelmente seja pelos dois motivos hehehe
Google abre um sorriso.
não vi o motivo, mas ok
O motivo é o serviço recém lançado “Google Compute Engine”, para competir com o AWS: http://cloud.google.com/products/compute-engine.html
/\ Exatamente.
É, esse eu não conhecia ainda
Tenso, e eu que pensava em migrar algumas coisas pra AWS. Deixa quieto.
Mas por causa de uma falha relativamente pequena e rara como tal você já desistiria do serviço?
“Não é sempre que vemos dois grandes serviços web sofrendo problemas em servidores ao mesmo tempo, mas serve para mostrar que nenhum servidor – por mais que tenha uma poderosa infraestrutura – é à prova de falhas” [...]
O que garante que servidores de outras empresas também não caiam?
Eu administro dois hosts EC2 no AWS de São Paulo e o serviço é uma maravilha. Não caiu durante operação em mais de seis meses de uso. O serviço que usva antes caia pelo menos uma vez a cada dois meses. Claro que tem que ter um plano de contingência para o caso de eventualmente o serviço cair, senão vai ficar offline mesmo.
De fato, Instagram ficou bem instável durante um tempo. Mas já acesso normalmente e posto sem problemas.
É um dos raros problemas da Amazon, que sempre presta um dos melhores serviços.
Mas hoje é quinta ou sexta? Corrige aí. ehehehe
Que susto. Por um momento pensei que hoje ainda fosse quinta :O
Mas esse serviço de AWS não é Cloud? Se for, a falha de 3 servidores não deveria afetar em nada o sistema, pois os outros servidores deveriam assumir os processos, ou estou enganado?
A única característica do Cloud que o separa da hospedagem convencional é que no Cloud, você tem um cluster composto basicamente por máquinas virtuais disponíveis em diferentes máquinas parrudas.
Se dá uma falha física numa dessas máquinas, a única coisa que poderia salvar o Cloud seria um sistema de replicação e fail-over, algo que só serviços maiores, como Google, Facebook e etc. (Twitter eu não vou citar pois está explícito que eles não usam replicação ou fail-over, afinal, numa das fail-whales toda a contagem de seguidores e seguidos foi perdidos e afins..), que tem explícitas condições de pagarem mais pelo armazenamento e disponibilidade dos dados.
Ou seja, com cloud, ou sem cloud, para manter um serviço online realmente 99.999999% das vezes (vai que todas as máquinas disponíveis vão pro beleléu?), você precisa pagar o dobro, o triplo, ou sei lá…o quádruplo para poder manter o serviço online…se não, já era, amigo. =)
[]‘s
No AWS para isso acontecer você deve replicar geograficamente o seu serviço entre zonas dentro de uma determinada região, ou melhor ainda, entre regiões diferentes, senão uma zona inteira vai pro espaço com todas as máquinas que replicavam seu serviço. Neste momento, toda a zona us-east-1a da região da Virginia (USA) está com problemas, então se o seu serviço estivesse rodando lá, estaria fora do ar independente da replicação entre as máquinas nesta mesma zona. Um serviço replicado em outras zonas da mesma região que estão online(us-east-1b, us-east-1c, us-east-1d) ou replicado em outras regiões (São Paulo, Tókio, Cingapura…) poderia ainda estar rodando normalmente
Tanto de manhã, quanto agora, foursquare está funcionando…
Vai saber.
Depois de muito tempo consegui ir no New Dog com o pessoal do serviço, ia fazer meu primeiro Check-in lá e nada de Foursquare ¬¬”"”
O Google gargalha legal …
O que tem a ver o Google?
Lançou serviço de Cloud para grandes empresas (antes are aquele AppEngine) essa semana.
isso é normal com qualquer rede social grande um dia fica fora do ar mesmo!
Estou no japao 20:51 e dês de 11:00 nao consigo acessar o instamgram !!!
isso ae , é o que da expadir os aplicativos pra qualquer porcaria , como android e coisas parecidas , se fosse só no iphone não daria isso
Ainda não consigo acessar meu Instagram =\ desde de ontem a noite que estou tentando e NADA
Se não me engano, o estado americano onde estão os servidores problemáticos sofreram com uma tempestade elétrica, o que deve ter destruído cabos, geradores e etc, atrapalhando a conectividade com o resto do mundo e danificando componentes elétricos.
Será que é por isso que o foursquare tá com problema também?
Tb Não consigo efetuar o login no foursquare desde da 21hs