IA e vishing: quando a sua voz se torna uma ameaça
As ameaças cibernéticas estão em constante evolução, adaptando-se às novas tecnologias para atingir as suas vítimas com uma eficácia impressionante. Entre essas ameaças, o vishing, ou phishing por voz, destaca-se pela sua capacidade de manipular as pessoas através da voz.
Embora esta técnica já exista há muitos anos, o uso da inteligência artificial (IA) nestes ataques altera profundamente o panorama, tornando as fraudes mais convincentes e mais difíceis de detetar.
O surgimento da IA permite aos cibercriminosos automatizar chamadas, explorar dados pessoais para criar cenários personalizados e também falsificar vozes de forma muito realista.
De acordo com um estudo publicado pela Regula, 49 % das empresas a nível mundial foram confrontadas com casos de usurpação de identidade através de deepfakes de áudio em 2024, contra apenas 37 % em 2022.

A percentagem de empresas que detetaram deepfakes de áudio e vídeo em 2022 e 2024. Fonte: Regula
Os avanços tecnológicos e as ligações cada vez mais estreitas entre a IA e o vishing não fazem senão amplificar o impacto dos ataques de phishing por voz, que visam tanto particulares como empresas, administrações públicas ou mesmo associações.
IA e vishing, deepfake e deepvoice: panorama geral e definições
Deepfake: a IA ao serviço da fraude
Um deepfake, contração de «Deep Learning» e «Fake», é uma tecnologia que utiliza inteligência artificial para criar ou alterar conteúdos visuais, áudio ou vídeo, imitando de forma realista rostos, vozes ou gestos.
Permite sobrepor um rosto ou uma voz a outro suporte para simular situações que nunca aconteceram.
Os deepfakes de áudio são por vezes designados por deepvoices. Esta tecnologia centra-se especificamente na síntese e na imitação da voz humana. Graças a modelos de aprendizagem profunda, os sistemas deepvoice conseguem analisar amostras de voz para a clonar de forma extremamente convincente.
Estas técnicas oferecem oportunidades, nomeadamente nos setores musical e médico. No entanto, suscitam também preocupações de ordem ética e de segurança, nomeadamente no que diz respeito à cibersegurança e, mais especificamente, ao phishing por voz (vishing).
Em que consiste o vishing?
O vishing (também conhecido como «voice phishing» ou phishing vocal) é uma forma de fraude telefónica em que os cibercriminosos se fazem passar por interlocutores de confiança para obter informações confidenciais.
Ao contrário do phishing por e-mail, o vishing baseia-se em chamadas telefónicas. Mas, em ambos os casos, trata-se de utilizar métodos de engenharia social para enganar as vítimas, explorando as suas emoções (medo, confiança, sensação de urgência, etc.).
Os atacantes costumam fazer-se passar por representantes de empresas conhecidas, bancos ou mesmo de organismos públicos para diminuir a vigilância do seu alvo.
O objetivo dos vishers (cibercriminosos que praticam vishing) é levar a vítima a revelar dados confidenciais. Podem ser nomes de utilizador, palavras-passe, informações bancárias ou acesso a sistemas internos.
Esta forma de cibercriminalidade é particularmente perigosa, pois apresenta uma taxa de sucesso alarmante. Isto é ainda mais verdadeiro quando a IA e o vishing são combinados através da utilização da tecnologia deepvoice.
Como funciona o DeepVoice?
Nos últimos anos, temos assistido ao desenvolvimento de software que utiliza tecnologias de síntese de voz. Estas permitem gerar vozes realistas graças à inteligência artificial.
Estas plataformas oferecem ferramentas para criar vozes personalizadas, imitar vozes existentes ou gerar narrações dinâmicas em várias línguas. São utilizadas, nomeadamente, na produção de conteúdos, na educação, no entretenimento, em soluções de acessibilidade, etc.
Embora estas empresas proíbam, em teoria, a utilização fraudulenta das suas ferramentas, na prática existem poucas medidas de proteção.
De acordo com uma investigação realizada pela McAfee, bastam 3 ou 4 segundos de gravação de uma voz para conseguir cloná-la utilizando ferramentas disponíveis na Internet.
Mesmo com ferramentas gratuitas, os investigadores conseguiram reproduzir uma voz com 85 % de fidelidade em relação ao original. Com ferramentas mais avançadas e mais material de base, a taxa de fidelidade sobe para 95 %.
O acesso às deepvoices tornou-se, portanto, muito simples e já não requer competências técnicas específicas. Segundo a Recorded Future, há até cibercriminosos que oferecem os seus próprios serviços de clonagem de voz mediante pagamento.
IA e vishing: Abre-te, Sésamo
A voz grave para facilitar o acesso inicial
Para comprometer um sistema através de um ataque de vishing, um cibercriminoso precisa de um acesso inicial. Isso geralmente ocorre através de uma chamada direta do cibercriminoso para a vítima. Por vezes, o alvo recebe um e-mail a pedir-lhe que ligue ele próprio ao cibercriminoso, alegando, por exemplo, a resolução de um problema técnico.
Em todos os casos, o fraudador assume um papel e faz-se passar por alguém que inspire confiança na vítima (consultor bancário, técnico informático, funcionário público, etc.)
Com o uso de uma voz sintética, o acesso inicial é facilitado. O facto de se poder assumir não apenas um papel, mas também a voz associada a esse papel, facilita muito a conquista da confiança da vítima.
Ainda mais quando o ataque recorre, em paralelo, ao spoofing, uma técnica relativamente simples de implementar que permite ao hacker falsificar um número de telefone.
Ao fazer-se passar por um superior, um colega ou mesmo um gestor de conta pessoal, o autor da chamada não precisa de convencer o seu interlocutor de quem é. Este reconhece imediatamente uma voz familiar.
Isso leva mais facilmente o alvo a realizar uma transação financeira, a conceder acesso remoto ao sistema informático ou a transmitir dados confidenciais.
Movimento lateral e escalada de privilégios
No contexto do vishing, um atacante pode recorrer a duas técnicas para atingir os seus objetivos: o movimento lateral e a escalada de privilégios.
O movimento lateral consiste na ação de um atacante que se desloca dentro de um sistema comprometido para aceder a outros recursos internos. Isso permite-lhe alargar o seu acesso e visar dados ou sistemas críticos.
A escalada de privilégios, por sua vez, permite obter direitos superiores. O invasor pode então aceder a dados confidenciais ou alterar parâmetros aos quais não tinha acesso inicialmente.
No entanto, um ataque que combina IA e vishing facilita a penetração profunda nos sistemas informáticos.
Na prática, é geralmente mais fácil enganar a atenção de um funcionário responsável pela central telefónica do que a de um administrador de redes informáticas. Este último está, de facto, mais sensibilizado para as técnicas dos cibercriminosos.
Assim, um visher pode muito bem gravar diretamente a voz de um interlocutor ou recuperar gravações que encontre na rede após um acesso inicial.
Poderá então treinar um modelo de deepvoice, o que lhe permitirá estabelecer interações credíveis com outros destinatários dentro da organização. Assim, terá acesso a sistemas e dados cada vez mais confidenciais.
Onde é que os vishers encontram as suas fontes de informação?
A evolução das técnicas de comunicação facilita o trabalho dos vishers, permitindo-lhes obter amostras de voz sem sequer terem de se infiltrar previamente numa rede.
De facto, cada vez mais pessoas gravam a sua voz na Internet. Isso pode ser feito através de vídeos publicados nas redes sociais ou de mensagens de voz trocadas em aplicações de mensagens.
De acordo com o estudo da McAfee acima referido, 55 % dos franceses gravam a sua voz pelo menos uma vez por semana. Uma parte dessas gravações é pública e a outra parte pode muito bem tornar-se pública na sequência de uma fuga de dados.
No que diz respeito aos dirigentes de empresas, as conferências filmadas ou as entrevistas podem servir de fonte para indivíduos mal-intencionados. A gravação da sua voz no correio de voz, a convidar a deixar uma mensagem, pode ser simplesmente outra fonte.
Com o desenvolvimento da IA, esta tecnologia pode permitir que os hackers imitem com grande facilidade a voz de uma pessoa para lançar um ataque diretamente ao mais alto nível.
A combinação de IA e vishing: uma ameaça atual e futura
Quando a realidade ultrapassa a ficção científica
Ainda de acordo com o estudo da McAfee, 11 % dos franceses já foram diretamente confrontados com uma tentativa de vishing por falsificação de voz, e 16 % conhecem alguém a quem isso aconteceu.
No entanto, a nível mundial, 36 % dos adultos inquiridos afirmam nunca ter ouvido falar deste risco. A ameaça é, portanto, simultaneamente muito grave e subestimada.
Além disso, de acordo com o estudo da Regula citado na introdução, mais de 85 % das empresas consideram a usurpação de identidade através de deepfakes de áudio ou vídeo como uma ameaça a ter em conta.
O relatório indica também que as empresas estão mais preocupadas com os efeitos negativos na sua reputação do que com as perdas financeiras decorrentes dos ataques. Isto explica provavelmente a discrição das empresas afetadas e o facto de este assunto não ter recebido maior cobertura mediática até ao momento.
Vários casos de empresas que foram vítimas
São numerosos os casos de particulares vítimas de fraudes que utilizam IA e vishing, nomeadamente nos Estados Unidos. A Comissão Federal do Comércio aponta mesmo o vishing como o ataque mais perigoso em termos de perdas financeiras médias.
No que diz respeito às empresas, é mais difícil encontrar exemplos, sobretudo devido à sua falta de comunicação em caso de ataque. No entanto, alguns casos foram tornados públicos nos últimos anos.
Em 2019, o diretor de uma empresa de energia britânica foi vítima de um ataque de vishing, tendo transferido 220 000 € para uma conta fraudulenta após receber uma suposta chamada telefónica do seu CEO, que se encontrava na Alemanha. O atacante utilizou uma tecnologia de voz sintética para imitar na perfeição a voz e o sotaque alemão da pessoa cuja identidade foi usurpada.
Pior ainda, no início de 2024, um funcionário de uma multinacional foi vítima de uma videoconferência falsa, na qual todos os participantes eram representados por deepfakes. Resultado: 25 milhões de dólares foram transferidos de boa-fé pelo funcionário enganado.
Já tinha sido relatado um caso semelhante em 2020, no qual foram roubados 35 milhões de dólares a uma empresa japonesa.
Estes poucos exemplos demonstram bem o potencial dos ataques que combinam IA e vishing. Além disso, é importante ter em mente que o pior provavelmente ainda está por vir e que nenhuma empresa pode considerar-se imune.
Ataques já perigosos, apesar das limitações técnicas
Um estudo realizado em 2024 pelaEscola Politécnica de Quito simulou uma campanha de vishing utilizando software de clonagem de voz disponível ao público em geral.
Os resultados são alarmantes, uma vez que, em média, 60 % das pessoas contactadas revelaram informações confidenciais ao seu interlocutor. Apenas 15 % dos alvos conseguiram evitar o ataque.

Resultados dos testes de vishing realizados pela Escola Politécnica Nacional de Quito em 150 chamadas num ambiente universitário.
Os diversos estudos citados salientam, no entanto, as limitações das tecnologias de deepvoice. Os modelos de IA têm, por exemplo, dificuldade em pronunciar corretamente palavras complexas ou em imitar vozes ou expressões que fogem ao comum.
No entanto, é provável que esses limites sejam em breve ultrapassados e que os avanços tecnológicos permitam ataques ainda mais sofisticados.
Deepvoice ao vivo: um futuro flagelo?
A utilização da clonagem de voz em tempo real é uma evolução preocupante a ter em conta. Permitirá aos piratas informáticos interagir diretamente com o seu alvo.
Atualmente, os vishers criam gravações antes dos seus ataques. Depois, reproduzem-nas quando estão a falar com a vítima. Se esta se desviar do guião previsto, é muito provável que o ataque falhe.
Para contornar essa limitação, os hackers preparam o cenário de forma a antecipar as perguntas que os seus alvos possam fazer. Desta forma, evitam ao máximo as interações, como explica um especialista numa conferência disponível online.
No entanto, um jornal francês publicou recentemente o relato preocupante de um ataque em que o autor utilizou uma tecnologia de voz sintética em tempo real. Um filho, pensando que estava a falar com a mãe ao telefone, conseguiu evitar a armadilha ao perceber incoerências nas respostas da sua suposta mãe. Trata-se do primeiro caso registado em França, segundo o site Cybermalveillance.gouv.fr.
Sabemos, portanto, que é apenas uma questão de tempo até que a IA permita utilizar chamadas e até vídeos em «direto» de forma suficientemente convincente.
Como se proteger contra ataques que combinam IA e vishing?
Os bons hábitos e os procedimentos a adotar
Combater os vishers não é tarefa fácil, pois a tecnologia está em constante evolução e os piratas informáticos estão sempre um passo à frente. No entanto, existem alguns procedimentos e soluções técnicas para se proteger contra ataques que combinam IA e vishing.
1. Implementar a autenticação multifator (MFA) para aceder a informações críticas ou realizar transações bancárias.
2. Implementar procedimentos de verificação para confirmar a identidade de uma pessoa antes de responder a pedidos sensíveis por telefone (chamada de retorno para um número verificado, senha de voz, reconhecimento de impressão vocal, etc.).
3. Utilizar exclusivamente canais de chat corporativos seguros para todas as conversas confidenciais e não conceder qualquer exceção a este procedimento.
4. Utilizar tecnologias de autenticação e bloqueio de chamadas para filtrar as chamadas recebidas.
5. Faça perguntas específicas ao seu interlocutor, às quais só alguém que o conheça realmente será capaz de responder.
6. Estar atento a eventuais incoerências no discurso do interlocutor (pausas invulgares, alterações nos ruídos de fundo, mudanças de tom, etc.).
7. Evite divulgar informações se o interlocutor suscitar a menor dúvida.
8. Comunique as chamadas suspeitas ao serviço de segurança informática e aos seus colegas para evitar que mais alguém caia na armadilha.
Estas medidas de proteção permitem reduzir o risco de cair na armadilha do vishing. No entanto, a lista apresentada não é exaustiva e as tecnologias de defesa estão em constante evolução, tal como as tecnologias de ataque. Face a esta corrida desenfreada, a melhor solução continua a ser sensibilizar e testar os utilizadores.
Sensibilizar e testar através de uma simulação de vishing
A melhor arma dos golpistas é a ignorância das suas vítimas. Uma pessoa informada tem muito mais hipóteses de evitar uma armadilha.
A sensibilização e a comunicação com familiares e colegas permitem reforçar a sua vigilância face a tentativas de manipulação.
Esta abordagem permite instaurar uma cultura de cibersegurança nas organizações, onde cada pessoa se torna um elo ativo na proteção dos sistemas e dos dados sensíveis.
No entanto, para avaliar o nível de risco de uma organização face ao vishing, o melhor é optar por uma simulação de vishing para testar, em condições reais, os reflexos dos colaboradores. Isto permite, posteriormente, ajustar os procedimentos tendo em conta as recomendações resultantes da simulação.
Conclusão
A inteligência artificial está a transformar o panorama das ameaças cibernéticas, e o vishing é um exemplo flagrante disso. Para particulares, empresas, associações e organismos públicos, «vigilância» e «prevenção» devem tornar-se palavras-chave.
Investir na sensibilização e em simulações de vishing, adotar soluções tecnológicas adequadas e reforçar os procedimentos internos são medidas essenciais para se proteger.
A luta contra as ameaças crescentes que combinam IA e vishing exige uma mobilização coletiva e uma adaptação constante às novas realidades tecnológicas.
Esses riscos, embora por vezes ainda estejam numa fase inicial de desenvolvimento, exigem uma vigilância redobrada e medidas proativas para antecipar e contrariar a sua evolução potencial.
Perguntas frequentes: IA e vishing
1. O que é o vishing?
O vishing é uma forma de fraude telefónica em que os cibercriminosos se fazem passar por interlocutores de confiança. O seu objetivo é manipular as vítimas para obter informações confidenciais ou acesso a sistemas. Ao contrário do phishing clássico (por e-mail), baseia-se em chamadas de voz.
2. O que é o deepvoice?
O DeepVoice utiliza IA para clonar vozes humanas de forma realista. Ao analisar alguns segundos de uma amostra de voz, o software consegue criar vozes sintéticas muito semelhantes ao original. Os cibercriminosos podem, assim, imitar familiares, colegas ou dirigentes empresariais para reforçar a credibilidade dos seus ataques.
3. Como é que os cibercriminosos recolhem amostras de voz?
As amostras de voz são frequentemente obtidas através de:
- As redes sociais (vídeos ou áudios públicos).
- Gravações profissionais (conferências, entrevistas).
- Fugas de dados provenientes de várias plataformas.
- Registos capturados ou roubados na sequência de um acesso inicial ao sistema.
4. O vishing é uma ameaça crescente?
Sim. Com os avanços da inteligência artificial, os ataques de vishing estão a tornar-se cada vez mais sofisticados e difíceis de detetar. A vigilância e a prevenção são essenciais para combater esta ameaça em rápida expansão.
5. Quais são os riscos para as empresas face ao vishing?
As empresas estão expostas a vários riscos, nomeadamente:
- Divulgação de dados sensíveis, como informações transmitidas pelos clientes.
- Compromisso do sistema informático com apagamento ou encriptação dos dados.
- Perdas financeiras decorrentes de transferências fraudulentas.
- Ataques à reputação da organização.
6. Quais são os bons hábitos a adotar para evitar ser vítima de um ataque de vishing?
- Verifique sempre a identidade da pessoa com quem está a falar antes de fornecer informações confidenciais.
- Não responda a pedidos urgentes sem verificar duas vezes.
- Tenha cuidado com as incoerências no discurso ou no comportamento da pessoa com quem está a falar.
- Comunique qualquer chamada suspeita ao seu serviço de segurança ou às autoridades competentes.
7. Como proteger-se contra ataques que combinam IA e vishing?
Eis algumas medidas para reduzir os riscos:
- Implementar a autenticação multifator (MFA).
- Utilizar procedimentos rigorosos de verificação de identidade.
- Limitar a publicação de amostras de voz em plataformas públicas.
- Utilizar ferramentas de bloqueio e deteção de chamadas suspeitas.
- Sensibilizar os colaboradores para os riscos do vishing.
- Testar as defesas com uma simulação de vishing.
8. O que é uma simulação de vishing?
Uma simulação de vishing é um exercício controlado destinado a testar a capacidade de uma organização para reconhecer e combater ataques de vishing. Permite identificar vulnerabilidades, sensibilizar os colaboradores e melhorar os procedimentos de segurança.
9. OAvantdeCliquer oferece simulações de vishing?
Sim, a equipa deAvantdeCliquer é especialista na sensibilização para todas as formas de ataques de engenharia social desde 2017. Podemos ajudá-lo a testar a resistência da sua organização e dos seus colaboradores a um ataque de vishing. Contacte-nos para saber mais.















