O algoritmo da Netflix que sugere filmes é bem mais complexo do que você imagina
Como a Netflix aprimorou seu algoritmo de recomendações de filmes e séries
A Netflix anunciou nesta quarta-feira (17) uma mudança em seu algoritmo de recomendações personalizadas de filmes e séries devido à expansão global. Em janeiro, a empresa chegou a 130 novos países, o que exigiu melhorias para lidar com um público muito mais variado.
Isso é algo que a empresa já estava pensando há algum tempo. Na apresentação da expansão, Reed Hastings, CEO da Netflix, disse esperar que as recomendações ficassem tão boas a ponto de “recomendar exatamente a série ou filme que se encaixa no seu humor atual”, segundo ele.
Com certeza, mais dados de usuários ao redor do mundo para estruturar e, consequentemente, aprimorar as recomendações, são um fator positivo. Mas a empresa já sabia que não poderia usar a mesma abordagem de sugestão, que antes levava em conta principalmente o que o usuário assistia e comparava com os dados das pessoas da mesma localidade, além de outros fatores como busca, semelhança, avaliações, etc.
E as recomendações da empresa devem ser bem precisas, porque isso é o que fideliza o usuário ao serviço, segundo o próprio Carlos Gomez-Uribe, vice-presidente de inovação de produtos da Netflix. Ele escreveu até um artigo científico detalhando os algorítmos, inovações e valor de negócios desse sistema de sugestões.
“Quando um membro inicia uma sessão e nós ajudamos que esse membro encontre algo atraente dentro de alguns segundos, isso previne que ele abandone o nosso serviço por outra alternativa de entretenimento”, explica. A personalização das recomendações ajuda a concentrar a audiência, porque elas são o que basicamente compõem a página inicial do serviço. Imagina só se as recomendações fossem as mesmas pra todo mundo?
Por isso, a empresa criou um novo algoritmo que separa os assinantes em comunidades globais, independentemente de sua localização, e leva em consideração os gostos e preferências pessoais de cada usuário. “Nessa jornada, percebemos que uma boa história transcende fronteiras, e que os espectadores do mundo todo têm mais coisas em comum do que imaginam”, diz o comunicado.
Essas comunidades globais podem ser entendidas também como grupos de interesse, uma vez que nem sempre o que você gosta depende 1) do que as outras pessoas do seu país (ou que falam do mesmo idioma) assistem e 2) da origem do conteúdo que está disponível no catálogo da Netflix. Quando o gosto é levado em consideração, em vez da localização, o engajamento tende a ser maior.
O comunicado da empresa dá um exemplo com animes. A comunidade de assinantes que gosta desse tipo de conteúdo não é só do Japão: apenas 10% das pessoas desse grupo de interesse estão realmente no Japão.
Tudo bem, animes são um conteúdo um pouco específico, que nem todo mundo gosta. Mas a Netflix frisa que essa mudança no algoritmo beneficia a todos. “Embora isso seja especialmente vantajoso para assinantes que façam parte de um segmento novo ou pequeno, os assinantes de segmentos maiores que possuam preferências ou gostos muito específicos também se beneficiam”, assegura.
“Ao coletar dados do mundo todo e de países de diversos tamanhos, nossos algoritmos globais são capazes de acessar essas informações para fazer recomendações mais apropriadas e consistentes para essa comunidade específica”, explica a empresa. No total, foi necessário um ano de trabalho envolvendo dezenas de equipes da empresa e muitas pesquisas, com algumas dificuldades no caminho.
Dificuldades no desenvolvimento
Durante todo esse tempo, a Netflix tentou várias abordagens, mas alguns fatores principais traziam dificuldades à evolução do sistema, como contam Yves Raimond e Justin Basilico, dois engenheiros da empresa, neste post. São estes, todos relacionados com a expansão: disponibilidade de conteúdo desigual, questões culturais e lingústicas.
Disponibilidade
Para um filme aparecer no catálogo de determinado país, a Netflix precisa fechar um contrato de licença com agências, para obter os direitos de distribuição ― é por isso que o catálogo não é igual para todo mundo. Isso tem influência na forma como o algoritmo se comporta, uma vez que ele precisa levar em conta a disponibilidade.
Por exemplo, se dois filmes parecidos (como Matrix e Equilibrium) estiverem acessíveis em dois países diferentes cada (como França e EUA, respectivamente), usuários dos EUA que viram Equilibrium não poderão ver Matrix e vice-versa. Isso não quer dizer que eles não se interessem pela obra, só que a disponibilidade não é a mesma ― esse fator deve ser levado em conta, uma vez que eles provavelmente teriam assistido ao outro filme caso a obra estivesse no catálogo.
Com a Netflix operando em cerca de 190 países diferentes, também pode acontecer de um filme muito mais conhecido ao redor do mundo estar disponível em relativamente poucos países, enquanto uma produção menor e de nicho pôde ser licenciada para muito mais localidades. Assim, o ranking de busca ou recomendação priorizaria a produção menor, por ter maior disponibilidade.
Além da localização, o tempo que uma determinada produção está no catálogo também influencia o engajamento. Um conteúdo de nicho pode estar disponível há seis meses no catálogo, enquanto um filme mais conhecido pode ter sido adicionado recentemente e o sistema entender que ele não gera interesse o suficiente. Mas, se ele tivesse disponível durante o mesmo tempo que o conteúdo de nicho, provavelmente teria gerado mais engajamento.
Com essas preocupações em mente, os engenheiros fizeram os algoritmos produzir melhores recomendações. “Nós incorporamos em cada algoritmo a informação de que os membros têm acesso a diferentes catálogos de acordo com sua localização e o período [de disponibilidade], tomando como base conceitos da comunidade estatística sobre manipulação de dados ausentes”, explica o engenheiro.
Diferenças culturais
Esse aspecto tem a ver com a criação das comunidades globais, uma vez que uma população de uma determinada região pode gostar de produções de nicho produzidas em outro país tanto quanto um nativo daquela localidade. Um filme de ficção científica será mais popular em um país que no outro, mas e quanto ao gosto dos usuários individuais que consomem esse tipo de conteúdo? Isso pode (ou não) estar ligado ao país.
Então o serviço precisou pensar em um modelo de recomendação que funcionasse para países com poucos e muitos membros, e depois refletir diferenças locais no gosto. Eles se perguntaram: “o que é mais dominante: o gosto local ou pessoa? Ambos são importantes, mas padrões de gosto viajam globalmente”, entenderam os engenheiros.
“Se um usuário gosta de filmes de ficção científica, então alguém no outro lado do mundo que também goste de filmes Sci-Fi será uma fonte melhor de recomendações do que seu vizinho que gosta de ver documentários sobre comida. […] Com um algoritmo global, nós conseguimos identificar padrões de gosto novos ou diferentes que surgem com o tempo”, completam.
Linguagem
Com 21 línguas originadas de diferentes partes do mundo, é importante entender como as palavras são formadas para ver como indexar as pesquisas e recomendações. Em alguns idiomas orientais, vários caracteres podem formar uma só sílaba (que vira um caractere diferente), o que afeta a busca.
Por exemplo: Oldboy, no alfabeto Hangul, usado por coreanos, é 올드보이. A primeira letra (올) vem da formação de três caracteres: ㅇ ㅗ ㄹ. Eles precisaram entender como a língua é formada para apresentar a sugestão com o mínimo de interações possível, entregando o resultado desejado só com a digitação de “ㅇ”, em vez de “올”.
Além disso, a Netflix precisa levar em conta a disponibilidade de legendas e dublagem na hora de recomendar seu conteúdo. Um filme francês, sem legendas, pode não ser entendido por um brasileiro comum, mas existem brasileiros que falam francês fluentemente e entenderiam o filme sem problemas.
Como o serviço vai entender isso? Por enquanto, não vai. É bem difícil estimar quanto de uma língua um assinante conhece, então a Netflix usa padrões de visualização e dados auxiliares para estimar que língua um usuário entende. Esse problema também pode ser remediado com uma maior disponibilidade de legendas, apesar de muita gente gostar de assistir conteúdo em uma língua que são fluentes.
É claro que depois de tantas variáveis e a construção de comunidades globais de interesse, a Netflix precisa monitorar constantemente as avaliações e dados de qualidade e ver se sua estrutura nova está dando certo. Mas, considerando o quão importante esse fator é para a empresa (além de ser um de seus diferenciais), acredito que eles não vão deixar essa questão de lado.