Netflix explica como sofreu falha em servidores e você nem percebeu
Técnica da Netflix permitiu recuperação de sistema enquanto usuários assistiam normalmente a filmes e séries
Técnica da Netflix permitiu recuperação de sistema enquanto usuários assistiam normalmente a filmes e séries
Mesmo com um crescimento recorde em meio à pandemia, a Netflix não sofreu quedas de serviço em 2020. Ou, pelo menos, nenhuma que tenhamos notado. A plataforma de streaming explicou nesta segunda-feira (2) o funcionamento de uma técnica criada para tornar o serviço mais estável: ela foi colocada à prova recentemente, quando ninguém ficou sem maratonar suas séries durante uma falha sistêmica.
A técnica de redução progressiva de carga baseada em prioridade é uma forma de manter partes essenciais da Netflix funcionando durante uma falha. Primeiro, a empresa definiu quais requisições são menos importantes (como registros de acesso e outras solicitações em plano de fundo), importantes (histórico, seleção de idioma ou botão de pausa) e mais importantes (o conteúdo em si, é claro).
Em caso de falha sistêmica, a Netflix leva em conta as prioridades estabelecidas e impede que seu celular, computador ou TV faça solicitações menos importantes, para que o resto continue acessível. Tudo isso parece muito óbvio agora que já foi implantado, mas a Netflix não tinha nada parecido até 2019: basicamente, os sistemas podiam ficar totalmente no ar ou totalmente fora do ar, sem um meio termo.
Esta animação mostra como ainda era possível iniciar a reprodução de um episódio de Cobra Kai mesmo com boa parte das requisições sendo recusadas (503 é um código padrão HTTP de indisponibilidade de servidor; 200 é quando deu tudo certo):
Nos bastidores, quem faz todo o controle é o Zuul, serviço de roteamento criado pela Netflix que inclusive tem código aberto. Ele monitora continuamente os diversos serviços que compõem a Netflix: se a latência ou a taxa de falhas em um deles ultrapassar um limite pré-definido, o tráfego do serviço em questão é limitado para mantê-lo em funcionamento.
Agora, se o próprio Zuul notar que está ficando sobrecarregado, com base no uso de processamento ou número de conexões ativas, o tráfego será progressivamente limitado de forma mais agressiva para manter a Netflix funcionando enquanto o sistema se recupera. O funcionamento desse recurso é crítico porque, obviamente, se o Zuul cair, toda a Netflix fica fora do ar.
Enquanto a bagunça acontece nos bastidores, o Zuul envia um sinal para a sua TV, aplicativo ou navegador, informando quantas requisições eles podem fazer e em qual intervalo de tempo. Isso evita que seu celular (e o de milhões de outros usuários) fique repetidamente tentando se reconectar à Netflix em um curto período, piorando ainda mais a sobrecarga nos servidores da empresa.
“Em 2020, dias após a implantação [da redução progressiva de carga], a equipe começou a ver os benefícios da solução. A Netflix passou por um problema semelhante com o mesmo potencial de impacto da queda vista em 2019. Diferente daquela vez, a redução progressiva de carga do Zuul entrou em ação e começou a reduzir o tráfego até que o serviço estivesse em um estado saudável sem impactar a capacidade dos usuários de assistirem”, explica a Netflix.