O bom e o ruim do futuro do iPhone AI da Apple

Módulo de câmera do Apple iPhone 15 Pro Max.
Apple iPhone 15 Pro Max Andy Boxall/Tendências Digitais

Não muito tempo atrás, havia rumores de que a Apple estava trabalhando internamente em algo chamado Apple GPT, um chatbot baseado no modelo de IA da própria empresa com o objetivo de emular o que o ChatGPT da OpenAI faz. Nos meses que se seguiram, vimos produtos generativos de IA aparecendo em todos os lugares, desde Google Pixels e telefones Galaxy S24 da Samsung até um novato como o Nothing Phone 2a.

ANÚNCIOS

Enquanto isso, tudo o que recebemos da Apple foram afirmações vagas, mas ousadas. O CEO da Apple, Tim Cook, disse aos investidores que o impulso generativo de IA da Apple “abrirá novos caminhos” quando chegar no final deste ano. No entanto, parece que a Apple terá a ajuda do Google para realizar esses sonhos. Ou talvez até o OpenAI venha em socorro.

De acordo com a Bloomberg, a Apple está em negociações com o Google para licenciar os modelos Gemini AI para iPhones. Parece a mesma estratégia que a Samsung seguiu para os telefones da série Galaxy S24, que podem rodar o modelo Gemini Nano do Google no dispositivo, enquanto versões mais poderosas estão disponíveis na nuvem.

ANÚNCIOS

Os termos do acordo ainda não foram finalizados, já que as discussões estão em constante evolução. No entanto, a Apple também está em negociações com a OpenAI. Para lembrar, a tecnologia básica da OpenAI, como o modelo GPT-4 e Dall-E, está atualmente disponível no conjunto de produtos da Microsoft e por meio de aplicativos e serviços independentes como ChatGPT Plus. É um desenvolvimento interessante nas ambições de IA da Apple – e que me deixa igualmente animado e preocupado.

A jornada de IA da Apple (até agora)

Como usar o Gemini em seu dispositivo Android.
Tendências Digitais

No último mês de 2023, sem muito alarde, a Apple introduziu uma série de bibliotecas de modelos e estruturas do grupo MLX projetadas para operar em seu silício proprietário. Esta mudança visa introduzir recursos generativos de IA na série Mac, semelhante aos esforços da Qualcomm com sua plataforma Snapdragon X Elite.

ANÚNCIOS

No início deste ano, a divisão de pesquisa da Apple revelou um artigo sobre uma ferramenta generativa de IA chamada Keyframer – que permite aos usuários produzir conteúdo animado. É fundamentalmente baseado no modelo GPT-4 da OpenAI, mas incorpora gráficos vetoriais para processamento de imagens estáticas.

Além disso, os especialistas da Apple também publicaram um artigo de pesquisa que descreve uma ferramenta de IA que facilita a edição de imagens por meio de instruções verbais simples. Esse recurso se assemelha ao kit de ferramentas de edição de mídia assistida por voz apresentado pelos mais recentes chips Snapdragon da Qualcomm.

Aplicativo ChatGPT em execução em um iPhone.
Joe Maring/Tendências Digitais

Um relatório subsequente da Bloomberg destacou que a Apple tem aumentado a sua equipa dedicada responsável por examinar as funcionalidades generativas de IA, com o grande objetivo de tornar estas ferramentas acessíveis aos programadores até 2024.

Há rumores de que o lote inaugural de funcionalidades generativas de IA da Apple será lançado com o iOS 18, que está programado para ser revelado em junho. Mas, de acordo com o último relatório da Bloomberg, esses recursos são voltados para sistemas nativos no dispositivo e não para instalações de IA realmente generativas que geralmente são conectadas à nuvem, como as fornecidas por ChatGPT, Gemini ou Perplexity.

Em setembro, o The Information divulgou que a Apple vem desenvolvendo “modelos básicos” destinados a aprimorar o Siri. Esta iniciativa é supostamente semelhante à forma como a Gemini está promovendo o Google Assistant.

O que Gemini poderia fazer nos iPhones?

Aplicativo Google Gemini em ação no Android.
Google

Agora, o Gemini traz vários recursos para um telefone durante a execução local e quando conectado à Internet. Quando implementado no dispositivo, como é o caso do Google Pixel 8 Pro, ele pode resumir conversas no aplicativo Recorder mesmo quando o telefone está offline.

Para quem executa o aplicativo de teclado Gboard, o Gemini Nano traz o Smart Reply para a mesa, começando com aplicativos como o WhatsApp. Resumindo, ele lê sua conversa e sugere respostas com base no contexto. A IA no dispositivo também adiciona traduções offline, um recurso que já está disponível nos telefones da série Samsung Galaxy S24 prontos para Gemini.

No momento, com o aplicativo Gemini instalado em um telefone, ele pode realizar as seguintes tarefas.

  • Assim como o Google Assistant ou o ChatGPT, você pode participar de conversas em linguagem natural com o Gemini e obter ajuda para escrever, ter ideias e muito mais.
  • Resuma rapidamente as informações em seus e-mails ou arquivos após ativar a extensão Workspace. As informações podem ser resumidas em formatos como listas, gráficos e tabelas.
  • Gere imagens usando prompts de texto no mecanismo Dall-E da OpenAI.
  • Obtenha ajuda para usar sua câmera de novas maneiras. No aplicativo Gemini, aponte a câmera para uma cena e peça informações à IA sobre os objetos no quadro.
  • Entenda o que está na sua tela. Convoque Gemini com um comando “Hey Google” para realizar o trabalho. Por exemplo, pode resumir o artigo que você está lendo atualmente.
  • Utilize o Google Maps e o Google Flights para planejar viagens e até criar rotinas personalizadas.

Como um acordo de IA Apple-Google pode funcionar

Conversando com o chatbot Perplexity no Nothing Phone 2a.
Nadeem Sarwar / Tendências Digitais

Conforme mencionado acima, a Samsung trabalhou em estreita colaboração com o Google para que o modelo Gemini Nano AI funcionasse em seus principais telefones. Mas a Gemini não se limita apenas aos carros-chefe. Em fevereiro deste ano, a MediaTek anunciou que seu silício Dimensity 8300 de gama média agora está otimizado para o Google Gemini junto com o carro-chefe Dimensity 9300.

Fazer algo semelhante para a Apple não deve ser um grande incômodo. Se um acordo de licenciamento no dispositivo não der certo, sempre haverá o caminho do aplicativo. Por enquanto, não está claro qual estratégia a Apple implementará, supondo que o acordo seja concretizado.

A grande questão é se um acordo de licenciamento da Gemini mudará significativamente a forma como os usuários interagem com seus iPhones. E o mais importante, a Gemini promoverá alguma mudança para a Siri? Para ser franco, o Siri ainda tem muito caminho a percorrer antes de alcançar o Google Assistant.

Siri em um iPhone.
Nadeem Sarwar / Tendências Digitais

Mas mesmo o Google ainda não descobriu onde existe o Gemini ou substitui o Google Assistant em sua totalidade. No momento, quando você instala o Gemini em um telefone Android, ele substitui o Google Assistant. Ou, pelo menos, tenta.

Seu telefone ainda depende do Google Assistant para uma ampla gama de tarefas mundanas, porém significativas – como fazer uma chamada, definir um alarme, enviar uma mensagem, controlar dispositivos domésticos inteligentes e criar entradas de calendário. Da mesma forma, para navegação, digitação por voz no Gboard e Android Auto, o Google Assistant ainda é a IA confiável, não o Gemini.

Além disso, o Google Assistant ainda é o companheiro de IA preferido em monitores inteligentes e smartwatches Wear OS. Considerando o quão estreitamente a Apple entrelaça seu software em todo o ecossistema de hardware, especialmente entre iPhones e o Apple Watch, uma abordagem escalonada em que Gemini, Google Assistant e/ou Siri assumem apenas uma parte das responsabilidades criará muita confusão para um usuário médio.

Alternativamente, a Apple poderia trabalhar em estreita colaboração com o Google e criar integrações exclusivas, vinculando o Gemini aos recursos do ecossistema Apple, como Siri, Mail, Notes, Safari, Calendar, Health e muito mais. No entanto, dado o estado atual das políticas de armazenamento de dados da Gemini, não estamos prendendo a respiração por uma integração tão estreita no nível do sistema.

Os riscos do Gemini para a Apple

Aplicativo Google Gemini no Android.
Nadeem Sarwar / Tendências Digitais

É claro que a Apple perdeu a primeira onda de IA generativa em smartphones e, se acreditarmos nos relatórios, a empresa está trabalhando freneticamente para alcançá-la. Mas um acordo de licenciamento Gemini também significa que talvez nunca vejamos o próprio trabalho da Apple com desenvolvimento generativo de IA no âmbito do projeto “Ajax”. Ou talvez o veremos apenas de forma diluída enquanto Gemini faz o trabalho pesado de IA nos iPhones.

Mas Gêmeos tem seus defeitos. Pelo contrário, atrapalhou-se de forma mais surpreendente do que qualquer outra ferramenta de IA generativa convencional. Algumas semanas atrás, os usuários do Gemini notaram que ele estava produzindo imagens extremamente imprecisas, principalmente manipulando o tom de pele, a etnia e a precisão histórica.

A controvérsia aumentou a tal ponto que o Google pausou a criação de texto para imagem para Gemini. “Para ser claro, isso é completamente inaceitável e erramos”, escreveu o CEO do Google, Sundar Pichai, em um memorando interno, relatado pela NPR.

O logotipo do Google Gemini AI.
Google

Do outro lado do Atlântico, a Gemini ficou atolada noutra controvérsia quando as suas observações sobre o primeiro-ministro da Índia, Narendra, foram consideradas depreciativas e se tornaram virais nas redes sociais. “Simplesmente dizer ‘…desculpe, não foi testado’ não é consistente com as nossas expectativas de cumprimento da lei”, alertou (via NDTV) o Ministro da União da Índia, Rajeev Chandrasekhar.

A controvérsia mais uma vez empurrou a regulamentação da IA ​​para o debate e também foi emitido um aviso para os principais intervenientes na IA, exigindo-lhes que obtivessem aprovação explícita antes de ferramentas como o Gemini serem divulgadas publicamente.

Para uma empresa que segue as regulamentações governamentais de forma tão segura quanto a Apple, licenciar o Gemini para centenas de milhões de dispositivos em todo o mundo não é um risco pequeno. Principalmente quando o próprio Google avisa que “Gêmeos cometerá erros” e diz que você deve sempre verificar se há imprecisões.

Recomendações dos Editores