Há muito que há rumores de que a Apple tem planos para um grande impulso de IA até 2024 e além, e agora novas pesquisas podem ajudar muito a tornar isso uma realidade, ao mesmo tempo em que é capaz de manter a demanda da Apple por segurança e privacidade.
Até o momento, grandes modelos de linguagem (LLMs), como aqueles nos quais o ChatGPT se baseia, eram alimentados por computadores instalados em data centers e acessados por meio de uma página da Web ou de um aplicativo para iPhone. Eles são softwares enormes que exigem quantidades igualmente enormes de recursos para funcionar corretamente, tornando problemático tentar executá-los localmente em telefones como o próximo iPhone 16. Mas ao ter LLMs rodando em data centers, há uma preocupação com a privacidade a considerar, e com a Apple já trabalhando para manter o máximo possível de solicitações de Siri no dispositivo, não é surpresa que a Apple queira fazer o mesmo com qualquer implementação de LLM em que esteja trabalhando.
Agora, um artigo de pesquisa pode ter a resposta e abrir a porta para o Apple GPT interno da Apple estrear fora do Apple Park. Mas se a Siri realmente vai receber uma grande atualização, será que os iPhones de 2024 chegarão cedo demais?
Processamento no dispositivo
O artigo de pesquisa, intitulado “LLM in a flash: Efficient Large Language Model Inference with Limited Memory”, é de autoria de vários engenheiros da Apple e discute como um LLM pode ser usado em dispositivos com RAM (ou DRAM) limitada, como iPhones. O artigo também seria útil para trazer atualizações do Siri para dispositivos semelhantes com restrição de RAM, como MacBooks de baixo custo e iPad, sem mencionar o Apple Watch.
“Os grandes modelos de linguagem (LLMs) são fundamentais para o processamento moderno de linguagem natural, proporcionando desempenho excepcional em diversas tarefas”, começa o artigo. “No entanto, seus intensos requisitos computacionais e de memória apresentam desafios, especialmente para dispositivos com capacidade DRAM limitada. Este artigo aborda o desafio de executar LLMs com eficiência que excedem a capacidade DRAM disponível, armazenando os parâmetros do modelo na memória flash, mas trazendo-os sob demanda para DRAM .”
O armazenamento flash, ou o armazenamento que você escolhe ao comprar seu iPhone, é muito mais abundante e pode ser reservado para armazenar os dados do LLM. O artigo discute diferentes maneiras de usar o armazenamento flash de um dispositivo no lugar da DRAM. Existem duas maneiras principais discutidas, incluindo “janelas” e “agrupamento de linha-coluna”.
O artigo explica que “esses métodos permitem coletivamente a execução de modelos com até o dobro do tamanho da DRAM disponível, com um aumento de 4-5x e 20-25x na velocidade de inferência em comparação com abordagens de carregamento ingênuas em CPU e GPU, respectivamente”.
Benefícios óbvios
Os benefícios de tal abordagem são óbvios. Armazenar um LLM em um iPhone não só seria benéfico em termos de eliminar a necessidade de armazená-lo em um data center remoto e melhorar a privacidade, mas também seria muito mais rápido. Remover a latência criada por conexões de dados ruins é uma coisa, mas o aumento de velocidade vai além disso e pode fazer com que o Siri responda com mais precisão e rapidez do que nunca.
Há rumores de que a Apple está trabalhando para trazer microfones aprimorados para a linha do iPhone 16, provavelmente em uma tentativa de garantir que o Siri ouça o que as pessoas pedem com mais clareza. Junte isso ao potencial para um avanço no LLM e os iPhones de 2024 poderão ter alguns recursos sérios de IA.