Usada inicialmente para a produção de vídeos humorísticos, a técnica conhecida como deepfake tem ganhado cada vez mais espaço entre os produtores de desinformação. No período eleitoral de 2022, vídeos vêm sendo manipulados e seus conteúdos distorcidos a partir dessa prática, que usa inteligência artificial para copiar vozes e rostos. Por meio da tecnologia é possível produzir vídeos realistas em que pessoas aparecem fazendo e falando coisas que nunca fizeram ou disseram. Segundo especialistas, neste contexto é fundamental que o público esteja atento para não ser enganado.
Conteúdo analisado: Conteúdos possivelmente editados com técnica de deepfake envolvendo a manipulação de resultados de pesquisas de intenção de voto nas eleições de 2022 e informações sobre presidenciáveis. Em um deles, o âncora do Jornal Nacional, William Bonner, supostamente se refere ao ex-presidente e candidato Lula (PT) e a seu candidato a vice, Geraldo Alckmin (PSB), como “bandidos” – o que foi desmentido pelo Comprova.
Outros dois episódios recentes de edição de vídeo com o intuito de desinformar envolveram o telejornal e as eleições. No dia 19 de setembro, o JN denunciou a prática de deepfake ao se manifestar sobre um conteúdo falso, em que os apresentadores do noticiário, William Bonner e Renata Vasconcellos, supostamente anunciam que o candidato à reeleição Jair Bolsonaro (PL) estaria à frente nas pesquisas de intenção de voto para a Presidência. Na verdade, o Ipec apontou Lula como o candidato preferido dos eleitores – informação divulgada pelo JN no vídeo original e que foi editada, como mostrou o Comprova.
Uma montagem semelhante foi feita no mês anterior, envolvendo o mesmo telejornal e o mesmo instituto de pesquisa. Apesar de ambos os episódios também terem sido associados aos deepfakes, os conteúdos usavam técnicas de edição menos sofisticadas, classificadas como shallowfakes, conforme explica o jornalista Bruno Sartori – um dos pioneiros na criação de sátiras por meio de deepfake no Brasil.
Comprova Explica: O termo deepfake denomina uma técnica que consiste na criação de conteúdos sintéticos (não reais), que podem ser áudios e imagens, produzidos com auxílio de inteligência artificial (IA). Na prática, são mídias artificiais geradas a partir de uma grande quantidade de arquivos reais de determinada pessoa e com uso de um algoritmo de aprendizado de máquina (machine learning). Especialistas ouvidos pelo Comprova listam nuances que envolvem essa prática, como ela pode contribuir para forjar um cenário confuso sobre o que entendemos por realidade e quais os caminhos para lidarmos com essas distorções aperfeiçoadas pela tecnologia na era da desinformação.
Além disso, serão apresentados exemplos de outros tipos de edição, como o shallowfake, que também se trata de um conteúdo manipulado, mas que não utiliza inteligência artificial no processo de criação. Em inglês “deep” refere-se a algo “profundo”, enquanto “shallow” refere-se ao que é “raso”. Portanto, o deepfake corresponde a uma técnica mais sofisticada, enquanto o shallowfake trata-se de uma técnica superficial. Geralmente, o shallowfake consiste numa edição simples, na qual um vídeo ou áudio é tirado de contexto.
Há consenso entre os entrevistados que o caminho para driblar deepfakes criados com o intuito de causar prejuízo passa muito mais pelo olhar atento ao conteúdo do que por uma análise técnica do material suspeito. Os rastros que eventualmente denunciam a manipulação dos vídeos estão cada vez mais sutis e, portanto, podem passar despercebidos, especialmente para o público leigo. Por isso, o texto também tratará do papel da educação e do desenvolvimento da ‘arte da suspeita’, ou seja, da importância de desconfiar e checar as mensagens recebidas antes de tomá-las como verdade.
O que são deepfakes?
O deepfake ocorre quando a inteligência artificial (IA) funde, combina, substitui ou sobrepõe áudios e imagens para criar arquivos falsos em que pessoas podem ser colocadas em qualquer situação, dizendo frases nunca ditas ou assumindo atitudes jamais tomadas. O conteúdo pode ser de caráter humorístico, político ou mesmo pornográfico. São inúmeras as possibilidades: troca de rostos, clonagem de voz, sincronização labial a uma faixa de áudio diferente da original, entre outras. A técnica comumente distorce a percepção a respeito de um indivíduo em uma determinada situação.
Para criar esse tipo de material, é preciso ter acesso a arquivos verdadeiros — fotos, vídeos ou áudios — da pessoa-alvo da manipulação, que servem para alimentar o sistema da inteligência artificial. Quanto mais material à disposição, maior é a chance de um bom resultado. Isso ocorre porque a inteligência artificial aprende com o conteúdo-modelo fornecido e, com isso, consegue reproduzir padrões, como movimentos, expressões, vozes e outras características do indivíduo.
Como o próprio termo ‘fake’ sugere, o deepfake é feito para enganar. As técnicas de inteligência artificial fazem com que o vídeo pareça ‘perfeito’, como se fosse um registro fidedigno, conforme observa a professora titular na pós-graduação em Comunicação e Semiótica da PUC-SP Lúcia Santaella.
“O tipo mais divulgado de deepfake é quando a inteligência artificial consegue registrar todos os músculos faciais quando uma pessoa fala, e aí transporta esse registro para a face de uma outra pessoa como se ela estivesse falando o que ela nunca falou”, diz. “Por que engana? Porque está fingindo que aquilo é real. E não é real. É uma fantasia, mas que se faz passar por uma coisa que de fato aconteceu”, completa.
Embora o objetivo do uso dessa técnica seja variado, podendo servir, inclusive, a fins culturais, o termo tem se popularizado nas redes sociais por ser usado para a produção de conteúdos enganosos ou maliciosos, com o intuito de desinformar. Um dos exemplos de prejuízo causado pelo mau uso de deepfake foi denunciado em uma reportagem da rede britânica BBC, que destaca um relatório da empresa Sensity mostrando que nudes falsos de mais de 100 mil mulheres estavam sendo compartilhados na internet com uso da tecnologia deepfake bot. No caso, as roupas das mulheres eram removidas digitalmente com o uso de inteligência artificial.
Em outro caso, em agosto deste ano, o Comprova mostrou ser falso um vídeo publicado no TikTok que se utilizava da técnica. Nele, o âncora do Jornal Nacional, William Bonner, supostamente chama de “bandidos” o ex-presidente Lula e seu candidato a vice Geraldo Alckmin. Neste caso, foi utilizada uma técnica chamada Text to Speech (TTS), capaz de gerar áudios sinteticamente a partir de um conteúdo em texto e que utilizou um banco de dados com dezenas de áudios de Bonner, segundo informou Sartori ao Comprova à época da checagem. As técnicas TTS para criação de áudios, inclusive, já estão disponíveis para o grande público em sites gratuitos na internet, como foi o caso do vídeo analisado pelo Comprova.
Mas há deepfakes criados justamente para ajudar no combate à desinformação. Um exemplo foi feito pelo ator e diretor de cinema norte-americano Jordan Peele, no qual o ex-presidente dos Estados Unidos Barack Obama aparece disseminando informações enganosas. No meio do vídeo, Peele revela que a produção se trata de um deepfake. Para criar o conteúdo, ele utilizou recursos da ferramenta com objetivo de denunciar notícias falsas compartilhadas em 2018.
Já o perfil @deeptomcruise, no TikTok, criado pelo especialista de efeitos visuais Chris Ume, dedica-se a produzir vídeos com deepfakes bastante realistas do ator estadunidense Tom Cruise. As cenas postadas no perfil são feitas pelo ator Miles Fisher e usam um tom humorístico para demonstrar a técnica. Somente no TikTok, o perfil conta com 3,6 milhões de seguidores e 14,1 milhões de curtidas.
A origem do termo
Professor do Instituto de Computação da Universidade Estadual de Campinas (Unicamp) Anderson de Rezende Rocha explica que, originalmente, o termo deepfake dizia respeito ao “nome de um usuário que se autodenominava deepfake e postou um primeiro software baseado em técnicas de machine learning (aprendizado de máquina) que conseguia sintetizar uma face de um indivíduo no lugar de outra pessoa”. Isso era feito a partir de um banco de dados recheado de fotos.
Com o tempo, acrescenta o professor, houve uma assimilação do termo, que passou a designar uma técnica que gera algum tipo de falsificação “a partir de uma grande quantidade de fotos, vídeos ou arquivos de áudio de uma determinada pessoa a partir de um algoritmo de aprendizado de máquina”.
Segundo Rocha, esse recurso funciona por meio de muitas camadas, parâmetros e opções de escolha, que são aprendidos num processo de treinamento a partir de um grande volume de dados da pessoa-alvo, que servem de exemplo.
“Como esse tipo de algoritmo tem muitas camadas, dizemos que esse é um algoritmo do tipo ‘deep’ (profundo) e, hoje em dia, a gente se refere às técnicas deepfakes como essas técnicas que geram esse tipo de falsificação de imagens e áudios e que usam essas camadas em grande profundidade”, conclui o especialista, pontuando a diferença em relação à chamada ‘shallowfake’, uma falsificação menos sofisticada, com poucas camadas e parâmetros.
Professor associado na Universidade de São Paulo (USP) e pesquisador na área de aprendizado de máquina, Moacir Antonelli Ponti destaca ainda que a origem técnica do termo remete ao fato de que os algoritmos usados para geração de conteúdo nesse contexto “pertencem a um conjunto de métodos chamados de ‘deep learning’ (aprendizagem profunda). Como o conteúdo é ‘fake’ (falso), cunhou-se o nome deepfake, a partir da junção dos dois termos”.
No Brasil, o deepfake ganhou popularidade a partir de aplicativos e de conteúdos criados por Bruno Sartori, jornalista, humorista e influenciador digital, considerado um dos pioneiros na criação de sátiras utilizando a técnica. Ele conta que, em dezembro de 2017, poucos dias após o código-fonte ter sido disponibilizado em um fórum do Reddit (rede social que agrega fóruns de variados temas), acabou conhecendo a tecnologia e quis acrescentá-la a seus trabalhos.
“Visualmente, você via que era montagem, mas dava um efeito muito legal. E comecei a aprender. Fiz um vídeo que viralizou em maio de 2018, que era o Bolsonaro de Chapolin Colorado. A partir dali, fui percebendo que muita gente acreditava que era [Bolsonaro], por mais absurdo que pareça, porque a pessoa estava vendo o Bolsonaro, não tinha como não ser ele. Eu fui percebendo que as pessoas acreditavam neste tipo de conteúdo. Então, acho que o primeiro contato do público brasileiro [com deepfake] foi através dos meus vídeos. E logo a popularização se deu quando os celulares passaram a oferecer aplicativos que faziam isso”, contextualiza Sartori.
Diferença em relação a edições comuns
Enquanto o processo de criação de deepfakes utiliza uma base de dados para servir de modelo à inteligência artificial, edições comuns de peças audiovisuais são feitas a partir de ferramentas computacionais que não exigem esses dados.
Durante as eleições dos Estados Unidos em 2020, por exemplo, o então presidente Donald Trump compartilhou vídeos manipulados em mais de uma ocasião para atacar seu principal adversário, o democrata Joe Biden. Conforme a Agência Pública, em março daquele ano, Trump publicou um vídeo do candidato democrata no qual ele aparentava apoiar a sua reeleição. A reportagem cita que, apesar de ser um vídeo editado, não chega a ser um deepfake por não utilizar inteligência artificial no processo de criação. O material, contudo, foi suficiente para confundir eleitores.
O mesmo ocorreu com um vídeo checado recentemente pelo Comprova, que foi manipulado para mostrar Bolsonaro à frente de Lula em uma pesquisa do Ipec. Na edição de 12 de setembro, o Jornal Nacional divulgou o resultado real, que indica o oposto do que sugere o vídeo adulterado. Ao se posicionar sobre a montagem, o programa chegou a associar o conteúdo manipulado a um deepfake. No entanto, conforme explica Bruno Sartori, a peça de desinformação não se enquadra nessa classificação.
O jornalista explica que, mesmo antes de dezembro de 2017, este tipo de edição já era feito. No caso do vídeo analisado, compartilhado no TikTok, Sartori afirma que foi feita uma edição simples de computador, na qual ocorre um corte no início e no fim do áudio, em que o trecho, por mais que seja verídico, é trocado de lugar. Essa prática, garante, já era utilizada antes do surgimento do deepfake.
“Quando é deepfake, se usa uma técnica de síntese de mídia digital, você cria uma mídia digital com inteligência artificial, uma mídia sintética. Então, precisa dessa inteligência artificial para fabricar essa mídia sintética. Além disso, não é qualquer pessoa que faz um deepfake. Não basta editar um vídeo e tirá-lo de contexto para ser um deepfake. Isso, na verdade, é um shallowfake, que são vídeos tirados do contexto por material tanto auditivo quanto visual”, compara Sartori.
Professor da USP, Ponti complementa, explicando que, num deepfake, são usados áudios e imagens reais de uma pessoa a ser imitada. Já numa produção comum, a edição é feita com a ajuda de alguma ferramenta computacional que não usa esses dados.
“No caso do deepfake, quanto mais essa pessoa tiver conteúdo disponível publicamente, mais dados o algoritmo terá para produzir conteúdo realista. Por exemplo, um jornalista ou repórter de TV aberta, um ator, um político, todos têm sua imagem, vídeo e voz disponíveis amplamente. Assim, quanto mais pública é a personalidade, maior será a qualidade do deepfake”, explica.
Deepfake na política
No Brasil, conforme cita Sartori, não há casos de seu conhecimento em que a tecnologia tenha sido usada em campanhas eleitorais anteriores ao pleito de 2022. Em 2018, segundo ele, os equipamentos não eram tão potentes e poucos profissionais tinham conhecimento da prática. O jornalista diz que, à época, já alertava em seus vídeos que a ferramenta poderia vir a ser utilizada nas eleições deste ano.
Atualmente, o uso da tecnologia ainda é tímido, mas tem ganhado força, principalmente por causa dos aplicativos que possibilitam a criação deste tipo de conteúdo. Sartori acredita que, daqui a quatro anos, nas próximas eleições, a técnica terá sido aperfeiçoada, com possibilidade de ser largamente explorada em campanhas eleitorais.
“Hoje, não utilizam tanto por um fator: a mentira contada de uma forma simples tem o mesmo efeito de um deepfake. [O shallowfake] é editado facilmente, coisa de dois minutos faz um vídeo desses, e se tem um estrago enorme. Para fazer isso em deepfake, se leva muito tempo, é caro e precisa de um profissional. Então, por que utilizar uma bazuca se um estilingue está dando certo?”, questiona.
No entanto, mesmo com esses obstáculos, o jornalista aposta que, se eventualmente venha a surgir algum caso de deepfake nestas eleições, este chegará às redes nesta última semana de campanha para o primeiro turno das eleições de 2022.
“Nesses últimos momentos, nos três últimos dias de eleição, se tiver que surgir, vai ser aí, porque é uma coisa que é difícil de se desmentir rápido, que se espalha mais rápido que a informação real, e ele vai contando uma história que o eleitorado quer acreditar. Então, vai ser um vídeo que prejudica um candidato, vai ser um vídeo que conta uma história absurda, e a qualidade dele ou vai ser muito boa, o que vai impressionar a gente, ou estará em uma baixa qualidade para a gente não ver os defeitos dele”, finaliza.
Como identificar o deepfake e riscos da prática
A depender do grau de sofisticação do deepfake, pode ser muito difícil identificá-lo, ainda que existam algumas estratégias. É o que aponta o professor Moacir Antonelli Ponti. Diante de um vídeo suspeito, o pesquisador recomenda atenção a problemas nas transições entre o rosto e o restante da cabeça, entre lábios e dentes, além de eventual padrão robótico na movimentação.
“Mas cada vez mais os deepfakes estão melhores. Então, o importante nesse caso é a conscientização das pessoas sobre o conteúdo em si (o que está sendo dito e quem está dizendo) e não a forma (a aparência ou sonoridade)”, avalia.
Na mesma linha, a professora da PUC-SP Lúcia Santaella elenca alguns motivos pelos quais identificar um deepfake pode ser uma missão difícil, especialmente para pessoas leigas. A pesquisadora lembra que as teorias da percepção revelam que o ser humano não pode duvidar daquilo que vê, ou seja, cenas registradas em vídeo costumam ser tomadas como verdade. Em segundo lugar, as peças audiovisuais manipuladas normalmente são consumidas a partir da tela de um smartphone, o que, pelo tamanho reduzido, dificulta a identificação de detalhes que denunciem a edição. Por fim, as pessoas em geral não são “treinadas” para fazer leitura labial.
“Nós estamos acostumados a ver filmes e vídeos dublados. Então, essa atenção ao movimento labial é um hábito que nós não temos. A nossa atenção toda vai para a sequência visual do vídeo, vai para aquilo que está sendo contado, narrado ou apresentado”, observa.
Bruno Sartori diz que a tecnologia existe há cerca de cinco anos e que, com o passar do tempo, os códigos têm melhorado a capacidade de gerar conteúdo com mais qualidade. Muito por conta disso, afirma, rastros que eram deixados antigamente, e que possibilitavam a identificação de um conteúdo manipulado, estão praticamente imperceptíveis a olho nu nos dias de hoje.
O jornalista também cita que a qualidade do conteúdo depende muito do profissional que o cria, do seu conhecimento de manipulação de banco de dados e do nível de desempenho da máquina para processar vídeos em tamanho e qualidade melhores.
“Antes, por exemplo, era característico do deepfake ter todos os dentes unidos, tanto na parte de cima como na parte de baixo [da boca]. Hoje, não tem mais isso. Às vezes, o profissional acaba deixando na junção de um rosto com outro duas sobrancelhas [sobrepostas], eu vejo muito isso acontecer. Se pintar duas sobrancelhas em algum momento do vídeo, é claro sinal de deepfake. Pode existir também a incompatibilidade entre o rosto e o fundo do vídeo, de nitidez, cor e sombras”, destaca.
Como dica para evitar ser enganado por um deepfake malicioso, Sartori recomenda que se observe, para além desses detalhes técnicos, o contexto do vídeo. “Geralmente, [o deepfake] vai vir contando um absurdo, uma história que normalmente prejudica alguém. Então, se a história contada ali é prejudicial a alguém, já é um indicativo que pode ser um conteúdo manipulado.”
Para Santaella, o combate à desinformação passa pela educação. Ela afirma que o cidadão precisa aprender a desenvolver a “arte da suspeita”, ou seja, o hábito de desconfiar e verificar o conteúdo que recebe no celular. “O que é isso? Você recebe uma informação e vai checar. Isso é uma obrigação que surgiu no mundo das redes. Principalmente quando as mentiras começaram a se disseminar.”
“Não tem outro caminho senão uma educação consciente, uma educação que consiga mostrar que a realidade ficou extremamente complexa, porque nós estamos enredados, nós estamos num emaranhado de informações, e a educação tem que ir nessa direção”, conclui Santaella.
Com relação aos riscos da tecnologia, Sartori diz que, antigamente, para se colocar uma potência como os Estados Unidos em risco, eram necessários jatos, tanques de guerra e um grande exército. Atualmente, um deepfake bem construído pode ser suficiente para ameaçar uma nação. A peça pode causar uma revolta popular, seja contando uma história em que o presidente morreu, que o líder político está com uma grave doença, ou o envolvendo em um escândalo sexual.
E, apesar de os Estados Unidos e de outros governos estarem atentos à ferramenta, que é bastante poderosa e tem grande potencial, o influenciador não acredita na possibilidade de proibição de aplicativos ou a prática de deepfake.
“Eu não vi em nenhum lugar do mundo proibirem. Acredito que a proibição não vai conseguir inibir o mau uso, de forma alguma. Não é porque é proibido que vão deixar de fazer. Por exemplo, nos Estados Unidos existem estados em que é proibido criar deepfake alguns dias antes da eleição, que sejam de conteúdo eleitoral. Cada país ou estado tem criado a sua lei local, mas é mais uma regulamentação do que uma proibição. Eu não acredito que vão proibir porque é uma ferramenta de edição de imagem, assim como o Photoshop… Não vão conseguir proibir o Photoshop, da mesma forma, não vão conseguir proibir uma ferramenta de edição de vídeo, como é o deepfake”, avalia.
Por que explicamos: O Comprova investiga publicações suspeitas sobre pandemia, eleições e políticas públicas com alto grau de viralização nas redes sociais. Já o “Comprova Explica” serve como instrumento para ajudar leitores a entenderem determinado conteúdo que esteja causando confusão, ou para que compreendam como funcionam determinadas técnicas adotadas por produtores de peças de desinformação. Os deepfakes, temática esmiuçada neste “Comprova Explica”, têm sido usados como ferramenta para a criação de conteúdos falsos envolvendo atores políticos. Tal prática representa uma ameaça ao processo democrático e atrapalha a decisão do eleitor, que deve ser tomada com base em informações verdadeiras. A falta de conhecimento do público sobre essas mídias está entre os fatores que podem contribuir para a disseminação da deepfake desinformativa.
Outras publicações sobre o tema: A técnica já foi usada na produção de conteúdos falsos desmentidos pelo Comprova. Em agosto de 2022, a ferramenta inventou um áudio do apresentador William Bonner chamando Lula e Alckmin de bandidos, e mudou o resultado de pesquisa de intenção de voto para presidente. No mês de setembro, mais uma vez, o trecho de uma edição do Jornal Nacional foi manipulado para espalhar a mensagem falsa de que Bolsonaro, e não Lula, estaria em primeiro lugar na pesquisa de intenção de voto para presidente do Ipec.