Existem rumores de que a Apple pretende trazer grandes melhorias para o Siri ainda este ano. Ouvimos várias vezes que a Apple está trabalhando em novos modelos de linguagem grande (LLM) que poderiam fazer com que seus dispositivos ganhassem novos recursos de IA, dos quais nenhuma plataforma da Apple foi capaz de se orgulhar até agora. A própria Apple já confirmou que está gastando tempo trabalhando em iniciativas de IA sem revelar nada e agora lançou uma nova ferramenta de IA de código aberto que pode não ser usada por muitos, mas nos dá uma dica sobre os tipos de coisas que a Apple tem focado. sobre.
A Apple disponibilizou hoje um novo modelo de IA de código aberto que pode editar imagens com base nas instruções de texto fornecidas. O modelo pode fazer uma variedade de coisas ao realizar essas edições, incluindo várias coisas que algumas pessoas normalmente recorreriam a aplicativos dedicados para fazer.
Chamada de MGI, ou Edição de imagem guiada por MLLM, a ferramenta usa LLMs multimodais para transformar comandos baseados em texto em edições em nível de pixel que, por sua vez, geram uma imagem alterada. Exemplos do que as pessoas poderiam fazer é pedir ao MGIE para alterar as cores de uma imagem ou alterar a saturação.
Magia MGIE
VentureBeat detalhou a nova ferramenta MGIE, dizendo que ela pode realizar muitas das tarefas que as pessoas realizam regularmente com aplicativos como o Photoshop. “O MGIE pode realizar edições comuns no estilo Photoshop, como cortar, redimensionar, girar, inverter e adicionar filtros”, explica o relatório. “O modelo também pode aplicar edições mais avançadas, como alterar o plano de fundo, adicionar ou remover objetos e mesclar imagens”.
Isso não é tudo. O MGIE é então capaz de “otimizar a qualidade geral de uma foto, como brilho, contraste, nitidez e equilíbrio de cores. O modelo também pode aplicar efeitos artísticos como esboço, pintura e desenho animado”.
Isso também não é tudo. Os usuários podem solicitar que a ferramenta edite regiões específicas de partes de um objeto, como o rosto de uma pessoa ou suas roupas, enquanto “o modelo também pode modificar os atributos dessas regiões ou objetos, como forma, tamanho, cor, textura e estilo”. .”
A ferramenta MGIE é atualmente um projeto de código aberto disponível no Github, e há uma demonstração que pode ser usada para dar uma olhada no modelo. Não é perfeito, mas ainda é impressionante mesmo em sua versão beta atual.
Não está imediatamente claro como isso beneficiará os usuários da Apple e Siri no futuro, mas é uma indicação do trabalho que a empresa está fazendo. No entanto, existem possibilidades que saltam à nossa vista, incluindo a capacidade de conectar esse tipo de capacidade de IA em atalhos – potencialmente permitindo entradas baseadas em texto para alterar imagens salvas no aplicativo Fotos. Aqueles que talvez estejam sobrecarregados com as opções de edição do aplicativo Fotos também podem simplesmente dizer ao Siri o que desejam, com o assistente digital alimentando essas informações em uma versão avançada do MGIE.
Ainda é muito cedo, disso não há dúvida. Mas com a Apple potencialmente fazendo grandes avanços em IA com o próximo iOS 18 e o Apple Vision Pro especificamente adequado para emitir instruções verbais para algo como o Siri, há esperança de grandes mudanças no assistente digital este ano.
Espera-se que a Apple apresente uma prévia do software iOS 18 junto com as novas atualizações de software para Mac, iPad, Apple Watch e Apple TV em junho. É possível que vejamos o visionOS 2.0 também, com todas as novas atualizações provavelmente lançadas ao público no outono.