Netflix explica como sofreu falha em servidores e você nem percebeu

Técnica da Netflix permitiu recuperação de sistema enquanto usuários assistiam normalmente a filmes e séries

Paulo Higa
Por
• Atualizado há 2 anos e 9 meses
Netflix (Imagem: Cottonbro/Pexels)
Netflix (Imagem: Cottonbro/Pexels)

Mesmo com um crescimento recorde em meio à pandemia, a Netflix não sofreu quedas de serviço em 2020. Ou, pelo menos, nenhuma que tenhamos notado. A plataforma de streaming explicou nesta segunda-feira (2) o funcionamento de uma técnica criada para tornar o serviço mais estável: ela foi colocada à prova recentemente, quando ninguém ficou sem maratonar suas séries durante uma falha sistêmica.

A técnica de redução progressiva de carga baseada em prioridade é uma forma de manter partes essenciais da Netflix funcionando durante uma falha. Primeiro, a empresa definiu quais requisições são menos importantes (como registros de acesso e outras solicitações em plano de fundo), importantes (histórico, seleção de idioma ou botão de pausa) e mais importantes (o conteúdo em si, é claro).

Em caso de falha sistêmica, a Netflix leva em conta as prioridades estabelecidas e impede que seu celular, computador ou TV faça solicitações menos importantes, para que o resto continue acessível. Tudo isso parece muito óbvio agora que já foi implantado, mas a Netflix não tinha nada parecido até 2019: basicamente, os sistemas podiam ficar totalmente no ar ou totalmente fora do ar, sem um meio termo.

Netflix limita tráfego para evitar que todo o serviço caia

Esta animação mostra como ainda era possível iniciar a reprodução de um episódio de Cobra Kai mesmo com boa parte das requisições sendo recusadas (503 é um código padrão HTTP de indisponibilidade de servidor; 200 é quando deu tudo certo):

Um monte de coisa dando erro, mas o essencial está funcionando (Imagem: Divulgação/Netflix)

Um monte de coisa dando erro, mas o essencial está funcionando (Imagem: Divulgação/Netflix)

Nos bastidores, quem faz todo o controle é o Zuul, serviço de roteamento criado pela Netflix que inclusive tem código aberto. Ele monitora continuamente os diversos serviços que compõem a Netflix: se a latência ou a taxa de falhas em um deles ultrapassar um limite pré-definido, o tráfego do serviço em questão é limitado para mantê-lo em funcionamento.

Agora, se o próprio Zuul notar que está ficando sobrecarregado, com base no uso de processamento ou número de conexões ativas, o tráfego será progressivamente limitado de forma mais agressiva para manter a Netflix funcionando enquanto o sistema se recupera. O funcionamento desse recurso é crítico porque, obviamente, se o Zuul cair, toda a Netflix fica fora do ar.

Enquanto a bagunça acontece nos bastidores, o Zuul envia um sinal para a sua TV, aplicativo ou navegador, informando quantas requisições eles podem fazer e em qual intervalo de tempo. Isso evita que seu celular (e o de milhões de outros usuários) fique repetidamente tentando se reconectar à Netflix em um curto período, piorando ainda mais a sobrecarga nos servidores da empresa.

“Em 2020, dias após a implantação [da redução progressiva de carga], a equipe começou a ver os benefícios da solução. A Netflix passou por um problema semelhante com o mesmo potencial de impacto da queda vista em 2019. Diferente daquela vez, a redução progressiva de carga do Zuul entrou em ação e começou a reduzir o tráfego até que o serviço estivesse em um estado saudável sem impactar a capacidade dos usuários de assistirem”, explica a Netflix.

Relacionados

Escrito por

Paulo Higa

Paulo Higa

Ex-editor executivo

Paulo Higa é jornalista com MBA em Gestão pela FGV e uma década de experiência na cobertura de tecnologia. No Tecnoblog, atuou como editor-executivo e head de operações entre 2012 e 2023. Viajou para mais de 10 países para acompanhar eventos da indústria e já publicou 400 reviews de celulares, TVs e computadores. Foi coapresentador do Tecnocast e usa a desculpa de ser maratonista para testar wearables que ainda nem chegaram ao Brasil.

Temas populares