A transcrição poderia ser muito mais fácil de fazer, graças a um aplicativo na forma de MacWhisper (abre em nova aba)disponível no macOS.
Serviços de transcrição, como Lontra (abre em nova aba) e Transcrever (abre em nova aba) permitem converter arquivos de áudio em texto, para que você possa adicioná-lo a um projeto ou entrevista para ler novamente.
Desenvolvido por Jordi Bruin (abre em nova aba), o download é gratuito, mas também há uma versão Pro disponível por $ 13 / £ 11, que permite uma transcrição mais rápida. Você pode soltar um arquivo MP3, MP4, WAV ou M4A no aplicativo e, usando o OpenAI, é exibida uma janela que exibe toda a transcrição e você pode editar partes dela se o aplicativo tiver digitado algumas coisas erradas.
Bruin lançou recentemente a versão 2, que reduz o tamanho do aplicativo de 4 GB para 8 MB e permite arrastar e soltar arquivos diretamente do aplicativo Voice Memos da Apple. Então, se você já usou isso em um Iphone para gravar uma entrevista, por exemplo, você pode facilmente obter uma transcrição em seu Mac logo depois.
Eu tenho feito podcasts por anos, e tentar transcrever episódios sempre foi demorado para garantir que tudo estivesse correto. No entanto, é algo que sempre foi importante para mim, pois pode ajudar alguém com deficiência auditiva.
Com isso em mente, usei MacWhisper 2.0 para um episódio recente do iMore Show para ver o quão bem ele transcreveu o que Karen, Stephen e eu conversamos por uma hora. Também reservei um tempo para conversar com Bruin sobre como a IA poderia ser usada como uma força para o bem, como MacWhisper fez.
Transcrevendo com facilidade
o episódio que exibido em 19 de fevereiro (abre em nova aba) tinha 62 minutos de duração, mas MacWhisper levou apenas 10 minutos para transcrever. Consegui editar certas partes para substituir ‘IMoar’ por ‘iMore’, enquanto meu nome tinha um ‘r’ adicional que era facilmente corrigível, e eu poderia exportá-lo como um arquivo de legendas ou um documento.
No grande escopo disso, foi impressionante e muito longe de mim transcrever podcasts e entrevistas manualmente em 2020. Consegui rolar até a marca de 42 minutos para descobrir onde estávamos dando nossas impressões sobre o trailer do tetris que estreou no início da semana, por exemplo, para que eu pudesse ir para outro tópico sobre o qual estávamos conversando diretamente, sem esfregar a linha do tempo para encontrá-lo sem rumo.
Falando com Bruin, ele espera que aplicativos como o MacWhisper mostrem como a IA pode ser usada para o bem. “Acho que a maioria das pessoas não percebe que algo como o Whisper também é baseado em tecnologia semelhante que permite que coisas como o GPT funcionem”, explica Bruin. “Embora os modelos Whisper e Large Language sejam diferentes, ambos se baseiam nos avanços da IA nos últimos anos. Para mim, o Whisper realmente mostra que todos esses avanços podem ser usados de várias maneiras que nunca consideramos.”
No entanto, a acessibilidade pode ser o grande vencedor aqui. A IA pode permitir que alguém com deficiência visual ou auditiva os ajude a desfrutar de podcasts e vídeos no YouTube, por exemplo. Perguntamos a Bruin se ele também espera que outros aplicativos como o MacWhisper possam tirar proveito da IA para necessidades como essas. “Espero que a IA torne mais fácil para os desenvolvedores encontrar maneiras inovadoras de resolver os desafios de acessibilidade. As transcrições para conteúdo de vídeo e áudio são uma melhoria muito óbvia, mas também estou ansioso para ver como a IA pode fazer interações complexas de computador mais simples para pessoas com habilidades motoras limitadas”, explica Bruin.
A próxima fronteira para acessibilidade?
A IA pode chegar a um ponto em que pode gerar uma pessoa fornecendo linguagem de sinais para qualquer vídeo, por exemplo, ou pode trabalhar com um Braille Embosser para converter texto, podcasts e vídeo na criação de pontos táteis para os usuários.
“Ter uma IA treinada nos movimentos específicos que uma pessoa pode fazer confortavelmente, para depois traduzi-los em (conjuntos de) interações complexas, teria um enorme impacto para muitas pessoas”, continua Bruin. “Minha principal conclusão é que, à medida que essas tecnologias complexas se tornam mais acessíveis a mais desenvolvedores e usuários, mais soluções podem ser pensadas em conjunto com as pessoas que mais precisam.”
Bruin tem outros aplicativos que tiram proveito da IA, como Assistente de texto (abre em nova aba) que permite usar a tecnologia para determinados prompts e solicitações. Desde a tradução de idiomas e explicações simples até a conversão de código para outros idiomas e muito mais.
No entanto, parece que o MacWhisper pode beneficiar os usuários de maneiras que outros aplicativos e serviços de IA não podem, e o Bruin ainda não o fez. “Embora meu foco principal seja adicionar pequenas melhorias e recursos de qualidade de vida nas próximas semanas. O MacWhisper 3.0 provavelmente se concentrará fortemente na detecção de alto-falantes e opções de exportação aprimoradas que são mais personalizáveis”, revela Bruin. “Quero lançar um aplicativo iOS posteriormente, mas terei que pensar em como as pessoas o usariam nesse contexto. Acabei de adicionar um roteiro ao aplicativo onde os usuários podem votar em seus recursos favoritos, para que deve me ajudar a restringir o que adicionarei a seguir!”
Embora o MacWhisper seja relativamente novo, ele abre várias oportunidades – não apenas para acessibilidade, mas para alunos ao criar relatórios ou quando você deseja assistir a algo com legendas. Há muito potencial para a IA ser uma ferramenta para todos, e parece que desenvolvedores como Bruin estão apenas começando.