Início » Internet » Netflix explica como sofreu falha em servidores e você nem percebeu

Netflix explica como sofreu falha em servidores e você nem percebeu

Técnica da Netflix permitiu recuperação de sistema enquanto usuários assistiam normalmente a filmes e séries

Paulo HigaPor

Mesmo com um crescimento recorde em meio à pandemia, a Netflix não sofreu quedas de serviço em 2020. Ou, pelo menos, nenhuma que tenhamos notado. A plataforma de streaming explicou nesta segunda-feira (2) o funcionamento de uma técnica criada para tornar o serviço mais estável: ela foi colocada à prova recentemente, quando ninguém ficou sem maratonar suas séries durante uma falha sistêmica.

Netflix (Imagem: Cottonbro/Pexels)

Netflix (Imagem: Cottonbro/Pexels)

A técnica de redução progressiva de carga baseada em prioridade é uma forma de manter partes essenciais da Netflix funcionando durante uma falha. Primeiro, a empresa definiu quais requisições são menos importantes (como registros de acesso e outras solicitações em plano de fundo), importantes (histórico, seleção de idioma ou botão de pausa) e mais importantes (o conteúdo em si, é claro).

Em caso de falha sistêmica, a Netflix leva em conta as prioridades estabelecidas e impede que seu celular, computador ou TV faça solicitações menos importantes, para que o resto continue acessível. Tudo isso parece muito óbvio agora que já foi implantado, mas a Netflix não tinha nada parecido até 2019: basicamente, os sistemas podiam ficar totalmente no ar ou totalmente fora do ar, sem um meio termo.

Netflix limita tráfego para evitar que todo o serviço caia

Esta animação mostra como ainda era possível iniciar a reprodução de um episódio de Cobra Kai mesmo com boa parte das requisições sendo recusadas (503 é um código padrão HTTP de indisponibilidade de servidor; 200 é quando deu tudo certo):

Um monte de coisa dando erro, mas o essencial está funcionando (Imagem: Divulgação/Netflix)

Um monte de coisa dando erro, mas o essencial está funcionando (Imagem: Divulgação/Netflix)

Nos bastidores, quem faz todo o controle é o Zuul, serviço de roteamento criado pela Netflix que inclusive tem código aberto. Ele monitora continuamente os diversos serviços que compõem a Netflix: se a latência ou a taxa de falhas em um deles ultrapassar um limite pré-definido, o tráfego do serviço em questão é limitado para mantê-lo em funcionamento.

Agora, se o próprio Zuul notar que está ficando sobrecarregado, com base no uso de processamento ou número de conexões ativas, o tráfego será progressivamente limitado de forma mais agressiva para manter a Netflix funcionando enquanto o sistema se recupera. O funcionamento desse recurso é crítico porque, obviamente, se o Zuul cair, toda a Netflix fica fora do ar.

Enquanto a bagunça acontece nos bastidores, o Zuul envia um sinal para a sua TV, aplicativo ou navegador, informando quantas requisições eles podem fazer e em qual intervalo de tempo. Isso evita que seu celular (e o de milhões de outros usuários) fique repetidamente tentando se reconectar à Netflix em um curto período, piorando ainda mais a sobrecarga nos servidores da empresa.

“Em 2020, dias após a implantação [da redução progressiva de carga], a equipe começou a ver os benefícios da solução. A Netflix passou por um problema semelhante com o mesmo potencial de impacto da queda vista em 2019. Diferente daquela vez, a redução progressiva de carga do Zuul entrou em ação e começou a reduzir o tráfego até que o serviço estivesse em um estado saudável sem impactar a capacidade dos usuários de assistirem”, explica a Netflix.

Comentários da Comunidade

Participe da discussão
10 usuários participando

Os mais notáveis

Comentários com a maior pontuação

@ksio89

A Netflix podia dar umas aulinhas de infraestrutura online para HBO GO e Globoplay.

Adriano Garcez (@Adriano_Garcez)

Netflix e Spotify são dois serviços que têm um back-end fora do comum. Eu clico no vídeo e já está reproduzindo o conteúdo. Parece até que o Gilfoyle é responsável pela infra… rs

Eita (@mandatario)

Netflix tem CDN próprio e faz parcerias com provedores locais!
Por isso é tão rápido!

Junior Santos (@junior)

Netflix usa AWS né?

Helio Felipe de Oliveira (@heliofelipe)

Enquanto isso eu passei o final de semana sem HBO Go e Telecine. Netflix nunca senti instabilidade, é muito rápido e estável.

Felipe Cadal (@cadal)

Já me disseram que a Globoplay usa WebView em seus aplicativos de Smart TV e Smartphones.

Felipe Cadal (@cadal)

Correto, mas o critério é bem alto. Não é qualquer provedor local que possui tráfego suficiente para a Netflix fornecer um CDN.

Andre Costa (@mr.luizandre)

Os dois realmente são incríveis, pioneiros em suas áreas. Quase que dá pra considerá-los empresas de tecnologia que fornecem conteúdo, do que uma empresas de mídia que usam tecnologia como principal meio, como as outras.

Felipe Silva (@Felipe_Silva)

Mas além dos CDN nos provedores o Netflix mantem CDN nos PTT (IX em inglês), que é onde até os provedores fuleiros acabam se conectando direta ou indiretamente, ou seja, o trafego do netflix raramente vem de outro estado, quase sempre está a no máximo algumas centenas de Km de ti.

Felipe Cadal (@cadal)

Sim, os PTTs brasileiros, com certeza, possuem CDN para entregar o conteúdo a quem está chegando até ele. Caso contrário, teríamos um blackout na rede.

[…] PTT (IX em inglês), que é onde até os provedores fuleiros acabam se conectando direta ou indiretamente […]

Cara, existem, sim, provedores fuleiros conectados ao ix.br, mas não generalize. Chegar até lá é uma coisa ótima para todos. Tem muito backbone de operadora gigante que é uma merda.

Felipe Silva (@Felipe_Silva)

Ai que tá, os provedores pequenos estão mais interessados nos PTT que os gigantes, é mais barato comprar transito pro PTT do que trafego IP, por isso boa parte da rede deles acaba se baseando em PTT, ai quando da os colapso nos PTT a internet para pq eles não tem rota alternativa.

Felipe Cadal (@cadal)

Realmente, o custo é mais baixo, porém, por experiência própria, é muito melhor do que um transito IP que utilizamos aqui (menores latências e saltos até o destino).

É muito difícil haver um problema no IX. Coisa que não posso dizer de trânsitos IP (de grandes operador que temos por aqui.

Inclusive, tem uma grande operadora que seu backbone chega no ix.br, mas tem seu looking glass para complementar. Se pedir no-export, não permitem.

Eita (@mandatario)

Ela também usa!

Eita (@mandatario)

O fato de ser Webview não atrapalharia em quase nada.
O problema deles esta no Back.

Eita (@mandatario)

Mas dizer isso é ser obvio!

Exibir mais comentários