Novo modelo de IA da Apple edita imagens com base em entrada de linguagem natural

Os pesquisadores da Apple lançaram um novo modelo de IA de código aberto que é capaz de editar imagens com base nas instruções de linguagem natural do usuário (via VentureBeat).

ANÚNCIOS

DALL%C2%B7E edição de imagem do logotipo da apple ai

Imagem MacRumors feita com DALL·E

ANÚNCIOS

Chamado de “MGIE”, que significa Edição de imagens guiada por MLLM, ele usa modelos multimodais de linguagem grande (MLLMs) para interpretar solicitações do usuário e realizar manipulações em nível de pixel.

O modelo é capaz de editar vários aspectos das imagens. Os aprimoramentos globais de fotos podem incluir brilho, contraste ou nitidez, ou a aplicação de efeitos artísticos, como esboços. A edição local pode modificar a forma, tamanho, cor ou textura de regiões ou objetos específicos em uma imagem, enquanto as modificações no estilo do Photoshop podem incluir corte, redimensionamento, rotação e adição de filtros, ou até mesmo alteração de planos de fundo e mesclagem de imagens.

ANÚNCIOS

Uma entrada do usuário para uma foto de uma pizza poderia ser “fazer com que pareça mais saudável”. Usando o raciocínio do bom senso, o modelo pode adicionar coberturas vegetais, como tomates e ervas. Uma solicitação de entrada de otimização global pode assumir a forma de “adicionar contraste para simular mais luz”, enquanto uma modificação no estilo do Photoshop poderia ser feita pedindo ao modelo para remover pessoas do fundo de uma foto, mudando o foco da imagem para o expressão facial do sujeito.

A Apple colaborou com pesquisadores da Universidade da Califórnia para criar o MGIE, que foi apresentado em um artigo na Conferência Internacional sobre Representações de Aprendizagem (ICLR) 2024. O modelo está disponível no GitHub e inclui código, dados e modelos pré-treinados.

Edição de imagem do modelo MGIE apple AI
Este é o segundo avanço da Apple na pesquisa de IA em poucos meses. No final de dezembro, a Apple revelou que havia feito progressos na implantação de modelos de linguagem grande (LLMs) em iPhones e outros dispositivos Apple com memória limitada, inventando uma técnica inovadora de utilização de memória flash.

Nos últimos meses, a Apple tem testado um rival “Apple GPT” que poderia competir com o ChatGPT. De acordo com BloombergPara Mark Gurman, o trabalho em IA é uma prioridade para a Apple, com a empresa projetando uma estrutura “Ajax” para grandes modelos de linguagem.

Ambos A informação e o analista Jeff Pu afirmam que a Apple terá algum tipo de recurso de IA generativa disponível no ‌iPhone‌ e no iPad por volta do final de 2024, quando o iOS 18 será lançado. Diz-se que o iOS 18 inclui uma versão aprimorada do Siri com funcionalidade de IA generativa semelhante ao ChatGPT e tem potencial para ser a “maior” atualização de software da história do iPhone, de acordo com Gurman.