Durante quase 35 anos, o conjunto de ferramentas digitais do Adobe Photoshop proporcionou aos fotógrafos e criativos o poder de transformar radicalmente imagens, utilizando métodos e técnicas que até à década de 1990 eram simplesmente impossíveis de fazer. Em uma sessão, um fotógrafo poderia usar o Photoshop para cortar a composição, alterar o contraste geral, ajustar cores, ajustar a exposição, adicionar filtros digitais e assim por diante, muitas vezes apenas alguns minutos após abrir a imagem no Photoshop.
O software de edição de imagens tem sido tão poderoso que não só mudou a forma como os fotógrafos e criativos pensam sobre a fotografia, mas a própria palavra “Photoshop” tornou-se um verbo: significa alterar ou editar digitalmente uma imagem, “especialmente de uma forma que distorce a realidade (para fins deliberadamente enganosos)”, de acordo com Merriam-Websters.
Mas podemos perguntar: à medida que a inteligência artificial se insinua em cada vez mais software, hardware e sistemas informáticos, estaremos realmente apenas no início do que o software de edição digital de imagens pode fazer?
Com MGIE, você poderá instruir o modelo de IA para realizar edições específicas, e o modelo de IA realizará essas tarefas
É muito cedo para dizer, mas no início desta semana, a Apple anunciou que seus pesquisadores colaboraram com pesquisadores da Universidade da Califórnia, em Santa Bárbara, para lançar um novo modelo de IA de código aberto, chamado “MGIE”. De acordo com VentureBeat, o novo modelo de IA pode “editar imagens com base em instruções de linguagem natural”.
Portanto, podemos muito bem estar entrando na próxima fase do software de edição de imagens.
MGIE significa “Edição de imagem guiada por MLLM” e “aproveita modelos multimodais de linguagem grande (MLLMs) para interpretar comandos do usuário e realizar manipulações em nível de pixel. O modelo pode lidar com vários aspectos de edição, como modificação no estilo Photoshop, otimização global de fotos e edição local.”
VentureBeat também disse que MGIE pode lidar com “uma ampla gama de cenários de edição, desde simples ajustes de cores até manipulações complexas de objetos”. Também pode realizar edições globais e locais, dependendo da preferência do usuário.
Os pesquisadores apresentaram seu trabalho em um artigo, que foi aceito na Conferência Internacional sobre Representações de Aprendizagem (ICLR) 2024 deste ano.