Segunda-feira, 12 de maio de 2025
Por Redação O Sul | 1 de julho de 2018
Graças a algoritmos automatizados inteligentes, softwares e aplicativos livres já conseguem alterar expressões faciais de um indivíduo em uma gravação original ou até substituir seu rosto pelo de outra pessoa.
Tudo isso pode ser feito com um computador comum ou celular. E, em muitos casos, os usuários nem precisam instalar os programas.
A tecnologia tem evoluído rapidamente, conforme mostram inúmeros vídeos. Em comunidades on-line, colaboradores desenvolvem ferramentas de deep fakes com códigos abertos e interface simples que podem ser usadas até mesmo por usuários que não têm muita familiaridade com a tecnologia.
Em paralelo a esses avanços, a empresa chinesa Baidu criou um algoritmo que consegue clonar vozes usando poucos segundos de uma amostra e pode, inclusive, reproduzir sotaques e entonações em falas completamente inventadas.
Essas novas ferramentas de vídeo e áudio começam a despertar um debate sobre as consequências do seu uso para fins inescrupulosos, como a manipulação de eleições e a desestabilização de regiões em conflito.
A rede social Reddit, por exemplo, precisou lidar com o uso malicioso de deep fakes. Em fevereiro, a empresa baniu comunidades que empregavam algoritmos automatizados para substituir rostos de atrizes de filmes pornô por aqueles de celebridades.
Essas manipulações, contudo, eram simples e tecnicamente perceptíveis, algo que deve mudar em breve.
“Creio que artefatos visuais que podem ser facilmente detectados são problemas transitórios, de uma tecnologia em evolução”, diz o pesquisador da área de computação gráfica Christian Riess, da Universidade Friedrich-Alexander Erlangen-Nürnberg, na Alemanha.
Vanguarda
As iniciativas criadas por profissionais de ponta do setor, entretanto, são mais realistas. Um exemplo é o software Face2Face, desenvolvido há cerca de dois anos por um grupo de pesquisadores alemães do qual Riess faz parte e que está na vanguarda desta tecnologia.
O programa permite alterar em tempo real rostos em vídeos do YouTube apenas com uma câmera capturando os movimentos da face do “manipulador”. Mas o Face2Face não está sozinho entre as ferramentas criadas por pesquisadores.
Com base em 14 horas de vídeos públicos de Barack Obama, cientistas da Universidade de Washington, nos Estados Unidos, desenvolveram no ano passado um algoritmo capaz de sintetizar os movimentos labiais do ex-presidente dos Estados Unidos.
Eles conseguiram sincronizá-los de forma realista com gravações cujos temas eram diferentes aos da manipulação. Ou seja, eles puderam incluir em um vídeo recente o áudio de antigas entrevistas do democrata.
Conforme essa tecnologia é aperfeiçoada, a linha que separa a realidade da ficção fica cada vez mais nebulosa. Por isso, o grupo de Riess criou o software FaceForensics, capaz de identificar rostos manipulados em vídeos.
Identificação
O FaceForensics utiliza um algoritmo que analisa um vídeo e sua cópia. O programa também aprende por conta própria as diferenças entre o original e a cópia e aplica esse conhecimento a vídeos de autenticidade desconhecida.
Algoritmos automatizados inteligentes deixam vestígios estatísticos. Como esse é um dos primeiros métodos para verificar vídeos suspeitos, a tecnologia ainda está em desenvolvimento.
De um modo geral, manipulações em gravações de qualidade baixa e compressão elevada são mais difíceis de identificar. Para esse grupo, o nível de precisão atual é de 87,1%. A taxa de sucesso em vídeos de alta qualidade e compressão simples é de 98%.
Há, entretanto, outro problema. Essas configurações se referem a um cenário no qual os pesquisadores conhecem ou possuem uma indicação do software usado para manipular os rostos.
Olho nu
Por outro lado, a maioria das pessoas pode não ter acesso a ferramentas de verificação. Então, como identificar essas manipulações a olho nu?
Uma dica é prestar atenção à qualidade dos vídeos e na maneira como os rostos se movem. No caso dos deep fakes de celebridades em filmes adultos, os rostos digitalmente “transplantados” traziam erros visuais, como resolução mediana, oscilações, tremores e flutuações como se estivessem em algum líquido.
Edições de nível mais baixo também não parecerão naturais, podendo ser identificadas com atenção. Até mesmo o Face2Face incorpora levemente características do rosto do “manipulador” à face do alvo. Isso causa um estranhamento mínimo, mas presente.
Quando não for possível perceber visualmente as manipulações, Riess recomenda checar os fatos.