O que está acontecendo com os servidores do TB?
Talvez você já tenha reparado que as coisas andam meio estranhas por aqui desde segunda-feira (17). Coisas que funcionam e depois param do nada, lentidão no servidor, instabilidades… Parece assombração, mas não é. A boa notícia é que redesenhamos a nossa estrutura de servidores e começamos a migração de domingo para segunda.
Era pra tudo ter ido bem (Ah, sempre é… Mas migração nunca funciona assim, certo?), mas muita coisa não funcionou. Principalmente pela mudança do webserver – tiramos o Apache e colocamos o Nginx com Fastcgi.

Ah, não falei dos servidores: trocamos duas máquinas (ve) da excelente MediaTemple por instâncias autoescaláveis do cloud da Amazon. E aí entra o desafio de refinar as regras que dizem para o sistema quando ele deve subir e quando ele deve matar as instâncias.
Numa dessas, já aconteceu de o sistema não subir mais máquinas quando deveria e esse foi um dos responsáveis pela lentidão que aconteceu aqui ontem e anteontem, em pleno horário de pico. Vale citar que a lentidão só atinge usuários logados, já que pra esses o blog é carregado sem cache. Os outros batem direto no cache de proxy do Varnish, então o carregamento é instantâneo.
Enfim, este post nada mais é do que uma prestação de contas. Estamos trabalhando dia e noite (sério, eu e o @leandrow varamos noites nessa semana) para resolver todos os problemas. Muitas das correções só podem ser implementadas durante a noite, já que implica gerar uma imagem da instância e replicar para o autoscale, o que mata o site por alguns minutos.
O que dá pra garantir é que estamos migrando para uma estrutura muito mais inteligente, com um sistema autoescalável e com um webserver mais eficiente. Só mais uns fios de cabelo branco e tudo acabará bem! 🙂