O Google publicou no blog do Gmail uma explicação para a interrupção do serviço de emails por aproximadamente 100 minutos durante a tarde de hoje. A empresa disse o fato ocorrido hoje foi sim “coisa séria” (tradução livre para big deal) e pediu desculpas aos seus milhões de usuários.
Segundo a empresa, o problema todo ocorreu porque uma equipe desligou uma “pequena fração” dos servidores do Gmail para realizar upgrades de rotina no equipamento. O curioso é que fizeram isso com a certeza de que mudanças realizadas previamente permitiriam que não houvesse sobrecarga nos roteadores que direcionam tráfego do serviço. Infelizmente Murphy agiu e o pior aconteceu.
Alguns dos roteadores do Gmail não conseguiram responder à enorme demanda de requisições, e acabaram colocando todos os roteadores de requisição em funcionamento. Como em todo efeito cascata, a interface web ficou indisponível por mais de uma hora. O problema afetou usuários de todo o mundo.
De acordo com o relato de Ben Treynor, vice-presidente de engenharia do Google, a equipe do Gmail foi avisada da indisponibilidade em questão de segundos e logo começou a trabalhar numa solução para o problema. A decisão deles foi, então, colocar “UM MONTE” (jeitinho?!) de roteadores de requisição no ar, fazendo com que o serviço voltasse a funcionar.
O Google reitera que já está trabalhando para que um FAIL desse não aconteça novamente. A empresa afirma que o seu serviço de email ainda mantém o uptime (porcentagem de tempo que permanece online funcionando) de mais de 99,9%.