A Apple fez outra adição ao seu crescente repertório de IA com a criação de uma ferramenta que aproveita grandes modelos de linguagem (LLMs) para animar imagens estáticas com base nas instruções de texto do usuário.
Imagem MacRumors feita com DALL·E
A Apple descreve a inovação em um novo artigo de pesquisa intitulado “Keyframer: Empowering Animation Design Using Large Language Models”.
“Embora interfaces de prompts únicos sejam comuns em sistemas comerciais de texto para imagem como Dall·E e Midjourney, argumentamos que as animações exigem um conjunto mais complexo de considerações do usuário, como tempo e coordenação, que são difíceis de especificar completamente em um único prompt – portanto, abordagens alternativas que permitam aos usuários construir e refinar iterativamente os designs gerados podem ser necessárias, especialmente para animações.
“Combinamos princípios de design emergentes para solicitação de artefatos de design baseados em linguagem com recursos de geração de código de LLMs para construir uma nova ferramenta de animação baseada em IA chamada Keyframer. Com o Keyframer, os usuários podem criar ilustrações animadas a partir de imagens 2D estáticas por meio de solicitação de linguagem natural. Usando GPT-4 3, o Keyframer gera código de animação CSS para animar um SVG (Scalable Vector Graphic).”
Para criar uma animação, o usuário carrega uma imagem SVG – de um foguete espacial, digamos – e digita um prompt como “gerar três designs onde o céu se transforma em cores diferentes e as estrelas brilham”. O Keyframer então gera o código CSS para a animação, e o usuário pode refiná-lo editando o código diretamente ou inserindo prompts de texto adicionais.
“O Keyframer permitiu que os usuários refinassem iterativamente seus designs por meio de solicitações sequenciais, em vez de ter que considerar todo o design antecipadamente”, explicam os autores. “Através deste trabalho, esperamos inspirar futuras ferramentas de design de animação que combinem os poderosos recursos generativos dos LLMs para agilizar a prototipagem de design com editores dinâmicos que permitem aos criadores manter o controle criativo.”
Segundo o artigo, a pesquisa foi informada por entrevistas com designers e engenheiros profissionais de animação. “Acho que isso foi muito mais rápido do que muitas coisas que fiz”, disse um dos participantes do estudo citado no artigo. “Acho que fazer algo assim antes levaria horas para ser feito.”
A inovação é apenas a mais recente de uma série de avanços em IA da Apple. Na semana passada, os pesquisadores da Apple lançaram um modelo de IA que aproveita o poder dos LLMs multimodais para realizar edições em nível de pixel em imagens.
No final de dezembro, a Apple também revelou que havia feito progressos na implantação de LLMs em iPhones e outros dispositivos Apple com memória limitada, inventando uma técnica inovadora de utilização de memória flash.
Ambos A informação e o analista Jeff Pu disseram que a Apple terá algum tipo de recurso generativo de IA disponível no iPhone e no iPad ainda este ano, quando o iOS 18 for lançado. Diz-se que a próxima versão do software móvel da Apple inclui uma versão aprimorada do Siri com funcionalidade de IA generativa semelhante ao ChatGPT e tem potencial para ser a “maior” atualização na história do iPhone, de acordo com Bloomberg repórter Mark Gurman.
(Através da VentureBeat.)