Apple cria jeito de rodar IA no iPhone sem depender da nuvem
Artigo publicado por pesquisadores da mostra uso da memória flash para rodar a IA, já que é mais abundante que a memória RAM
Artigo publicado por pesquisadores da mostra uso da memória flash para rodar a IA, já que é mais abundante que a memória RAM
Resumo
A Apple revelou que encontrou um método para modelos de linguagens grandes (LLM), principal tecnologia das IAs generativas, rodarem diretamente em smartphones. Pesquisadores da empresa publicaram um artigo em que destacam o uso de memória flash, responsável pelo armazenamento de arquivos, no lugar da RAM para executar as tarefas das inteligências artificiais.
Como a pesquisa foi financiada pela Apple, é natural prever que esse método será usado nos iPhones — resta saber quando. Hoje já temos IAs generativas para smartphones, mas todo o seu processamento é feito pela nuvem. É assim com o ChatGPT/Microsoft Copilot, Claude e Google Bard, exceto a Gemini Nano, mas ela ainda não foi lançada.
A técnica desenvolvida pela big tech permite que smartphones com pouca memória RAM rodem LLMs no próprio aparelho. O iPhone 15 Pro e Pro Max, por exemplo, contam “apenas” com 8 GB de memória RAM. No artigo, os autores explicam que uma IA com 7 bilhões de parâmetros (o “conhecimento” dela) precisa de pelo menos 14 GB para executar.
E sabe onde os smartphones têm memória sobrando (na teoria)? Na capacidade de armazenamento, que usa memória do tipo flash. Os iPhones mais novos começam com 128 GB de memória — 256 GB para o 15 Pro Max. Mas a técnica desenvolvida pelos autores não é bem uma RAM virtual.
No artigo, os pesquisadores explicam que os parâmetros da inteligência artificial ficariam na memória flash, ao invés da RAM. Quando fosse a hora de executar uma tarefa, a IA não dependeria da RAM para entregar um resultado. Outra diferença para a RAM virtual é que esta técnica consegue ser mais rápida.
Os autores conseguem melhorar o desempenho do processamento da IA graças a dois meios, um batizado de Windowing e outro de Row-column bundling (empacotamento de fila e coluna).
No primeiro, a IA reaproveita dados já processados, o que economiza tempo para pegar informações e deixa a execução mais rápida. Já no Row-column bundling, a leitura de dados é feita em várias etapas de uma só vez — um exemplo é como se um humano fosse capaz de ler um livro oração por oração, ao invés de palavra por palavra.
Com informações: MacRumors