Um grande medo de que a IA consiga fazer uma geração de voz perfeita e recrie perfeitamente a voz de uma pessoa é seu potencial para golpes. Esse tipo de tecnologia fez avanços nos últimos meses e, sem surpresa, está sendo abusado por criminosos que podem falsificar uma voz para convencer a família de seu proprietário de que a pessoa precisa de ajuda financeira.

Golpe por geração de voz via IA

Washington Post relata que um casal canadense de 70 anos recebeu recentemente um telefonema do que parecia ser seu neto, alegando que ele estava na prisão e precisava de dinheiro para fiança. 

Eles retiraram no máximo 3.000 dólares canadenses de um banco e estavam prestes a sacar a mesma quantia de outro quando o gerente disse que estavam sendo enganados; descobriu-se que outro cliente havia recebido uma ligação semelhante e soube que havia sido falsificada.

Um casal diferente, que não teve tanta sorte, foram os pais de Benjamin Perkin. Eles receberam um telefonema de um advogado dizendo que seu filho havia matado um diplomata americano em um acidente de carro, e Perkin estava na prisão e precisava de dinheiro para honorários advocatícios. O advogado colocou Perkin no telefone, que disse que os amava e apreciava o dinheiro.

A voz parecia “próxima o suficiente para meus pais realmente acreditarem que falaram comigo”, disse Perkin. Seus pais enviaram $ 15.449 para o golpista por meio de um terminal bitcoin e não conseguiram recuperá-lo.

Golpes baseados em voz não são novos. Dados da Comissão Federal de Comércio revelam que dos 36.000 relatos no ano passado de pessoas sendo enganadas por criminosos fingindo ser amigos ou familiares, mais de 5.100 desses incidentes aconteceram por telefone.

Falsificar a voz de uma pessoa costumava ser um procedimento demorado e complicado que envolvia a descoberta e coleta de horas de áudio, e o resultado final nem sempre era muito convincente. 

Agora, no entanto, as ferramentas de inteligência artificial tornaram o processo tão fácil que os golpistas precisam apenas de um pequeno clipe de uma pessoa falando, geralmente coletado de uma conta de mídia social, para recriar sua voz com precisão.

Um exemplo dessa tecnologia é a ferramenta Vall-E da Microsoft, que a empresa anunciou em janeiro. Com base em uma tecnologia chamada EnCodec que a Meta anunciou em outubro de 2022, ela funciona analisando a voz de uma pessoa, dividindo as informações em componentes e usando seu treinamento para sintetizar como a voz soaria se estivesse falando frases diferentes. 

Mesmo depois de ouvir apenas uma amostra de três segundos, o Vall-E pode fazer uma geração d evoz e reproduzir o timbre e o tom emocional de um falante. Confira como é assustadoramente convincente nesta página do GitHub.

A ElevenLabs, que oferece uma ferramenta generativa de voz de IA, twittou recentemente que estava vendo “um número crescente de casos de uso indevido de clonagem de voz”. Isso levou à remoção do recurso de clonagem de voz da versão gratuita de seu programa VoiceLab.

Leia também: Aplicativos de golpes no iOS e Android estão se espalhando via TikTok

Exit mobile version