KI und Vishing: Wenn Ihre Stimme zur Bedrohung wird
Cyberbedrohungen entwickeln sich ständig weiter und passen sich neuen Technologien an, um ihre Opfer mit erschreckender Effizienz anzugreifen. Unter diesen Bedrohungen sticht Vishing, oder Voice Phishing, durch seine Fähigkeit hervor, Menschen mit der Stimme zu manipulieren.
Diese Technik gibt es zwar schon seit vielen Jahren, doch der Einsatz künstlicher Intelligenz (KI) bei diesen Angriffen verändert die Situation grundlegend, da Betrugsfälle dadurch überzeugender und schwerer zu erkennen sind.
Das Aufkommen der KI ermöglicht es Cyberkriminellen, Anrufe zu automatisieren, personenbezogene Daten zu nutzen, um maßgeschneiderte Szenarien zu erstellen, aber auch Stimmen sehr realistisch zu imitieren.
Laut einer von Regula veröffentlichten Studie waren 49 % der Unternehmen weltweit im Jahr 2024 mit Identitätsdiebstahl durch Audio-Deepfakes konfrontiert, gegenüber nur 37 % im Jahr 2022.

Prozentualer Anteil der Unternehmen, die in den Jahren 2022 und 2024 Audio- und Video-Deepfakes entdeckt haben. Quelle: Regula
Technologische Fortschritte und die zunehmende Verknüpfung von KI und Vishing verstärken die Auswirkungen von Voice-Phishing-Angriffen, die sich sowohl gegen Privatpersonen als auch gegen Unternehmen, Behörden und Vereine richten.
KI und Vishing, Deepfake und Deepvoice: Überblick und Definitionen
Deepfake: KI im Dienste des Betrugs
Ein Deepfake, eine Zusammenziehung aus „Deep Learning“ und „Fake“, ist eine Technologie, die künstliche Intelligenz nutzt, um visuelle, Audio- oder Videoinhalte zu erstellen oder zu verändern, indem Gesichter, Stimmen oder Gesten realistisch imitiert werden.
Sie ermöglicht es, ein Gesicht oder eine Stimme auf ein anderes Medium zu übertragen, um Situationen zu simulieren, die nie stattgefunden haben.
Audio-Deepfakes werden manchmal auch als Deepvoices bezeichnet. Diese Technologie konzentriert sich speziell auf die Synthese und Imitation der menschlichen Stimme. Mithilfe von Deep-Learning-Modellen können Deepvoice-Systeme Stimmproben analysieren, um sie äußerst überzeugend zu klonen.
Diese Techniken bieten insbesondere im Musik- und Medizinbereich neue Möglichkeiten. Sie werfen jedoch auch ethische und sicherheitsrelevante Fragen auf, insbesondere im Hinblick auf die Cybersicherheit und vor allem auf Voice Phishing (Vishing).
Was ist Vishing?
Vishing (auch „Voice Phishing“ oder Sprach-Phishing genannt) ist eine Form des Telefonbetrugs, bei der sich Cyberkriminelle als vertrauenswürdige Gesprächspartner ausgeben, um an sensible Informationen zu gelangen.
Im Gegensatz zum Phishing per E-Mail basiert Vishing auf Sprachanrufen. In beiden Fällen werden jedoch Social-Engineering-Methoden eingesetzt, um die Opfer durch Ausnutzen ihrer Emotionen (Angst, Vertrauen, Gefühl der Dringlichkeit usw.) zu täuschen.
Die Angreifer geben sich in der Regel als Vertreter bekannter Unternehmen, Banken oder Behörden aus, um die Wachsamkeit ihres Opfers zu verringern.
Das Ziel von Vishers (Cyberkriminelle, die Vishing betreiben) ist es, das Opfer dazu zu bringen, vertrauliche Daten preiszugeben. Dabei kann es sich um Benutzernamen, Passwörter, Bankdaten oder Zugangsdaten zu internen Systemen handeln.
Diese Form der Cyberkriminalität ist besonders gefährlich, da sie eine alarmierend hohe Erfolgsquote aufweist. Dies gilt umso mehr, wenn KI und Vishing durch den Einsatz von Deepvoice miteinander kombiniert werden.
Wie funktioniert Deepvoice?
Seit einigen Jahren werden zunehmend Softwareprogramme entwickelt, die Sprachsynthese-Technologien nutzen. Diese ermöglichen es, mithilfe künstlicher Intelligenz realistische Stimmen zu erzeugen.
Diese Plattformen bieten Tools zum Erstellen personalisierter Stimmen, zum Imitieren bestehender Stimmen oder zum Generieren dynamischer Erzählungen in mehreren Sprachen. Sie werden insbesondere in den Bereichen Content-Produktion, Bildung, Unterhaltung, Barrierefreiheit usw. eingesetzt.
Auch wenn diese Unternehmen theoretisch die betrügerische Nutzung ihrer Tools verbieten, gibt es in der Realität nur wenige Schutzmaßnahmen.
Laut Untersuchungen von McAfee reichen bereits 3 bis 4 Sekunden Sprachaufzeichnung aus, um mithilfe von im Internet verfügbaren Tools eine Stimme zu klonen.
Selbst mit kostenlosen Tools konnten die Forscher eine Stimme reproduzieren, die zu 85 % dem Original entsprach. Mit ausgefeilteren Tools und mehr Ausgangsmaterial steigt die Genauigkeit auf 95 %.
Der Zugang zu Deepvoices ist somit sehr einfach geworden und erfordert keine besonderen technischen Kenntnisse mehr. Laut Recorded Future bieten Cyberkriminelle sogar ihre eigenen Dienste zum Klonen von Stimmen gegen Bezahlung an.
KI und Vishing: Sesam, öffne dich!
Deepvoice für einen leichteren Einstieg
Um ein System durch einen Vishing-Angriff zu kompromittieren, benötigt ein Cyberkrimineller zunächst einen Zugang. Dies geschieht in der Regel durch einen direkten Anruf des Hackers bei seinem Opfer. Manchmal erhält das Ziel eine E-Mail, in der es aufgefordert wird, den Kriminellen selbst zurückzurufen, beispielsweise unter dem Vorwand, ein technisches Problem zu lösen.
In jedem Fall spielt der Visher eine Rolle und gibt sich als eine Person aus, die beim Opfer Vertrauen weckt (Bankberater, IT-Techniker, Verwaltungsmitarbeiter usw.).
Durch die Verwendung einer Deepvoice wird der erste Zugang erleichtert. Die Tatsache, dass nicht nur eine Rolle, sondern auch eine mit dieser Rolle verbundene Stimme imitiert werden kann, erleichtert es erheblich, das Vertrauen des Opfers zu gewinnen.
Dies gilt umso mehr, wenn der Angriff parallel dazu Spoofing einsetzt, eine relativ einfach umzusetzende Technik, mit der Hacker eine Telefonnummer missbrauchen können.
Indem er sich als Vorgesetzter, Kollege oder sogar persönlicher Bankberater ausgibt, muss der Visher seinen Gesprächspartner nicht davon überzeugen, wer er ist. Er erkennt eine vertraute Stimme sofort wieder.
Dadurch lässt sich das Ziel leichter dazu verleiten, eine Finanztransaktion durchzuführen, Fernzugriff auf das IT-System zu gewähren oder sensible Daten zu übermitteln.
Seitliche Bewegung und Eskalation von Privilegien
Im Rahmen von Vishing kann ein Angreifer zwei Techniken einsetzen, um sein Ziel zu erreichen: laterale Bewegung und Privilegieneskalation.
Die seitliche Bewegung besteht darin, dass sich ein Angreifer innerhalb eines kompromittierten Systems zu anderen internen Ressourcen bewegt. Dadurch kann er seinen Zugriff erweitern und kritische Daten oder Systeme ins Visier nehmen.
Durch die Eskalation von Privilegien lassen sich höhere Rechte erlangen. Der Visher kann dann auf sensible Daten zugreifen oder Einstellungen ändern, auf die er ursprünglich keinen Zugriff hatte.
Ein Angriff, der KI und Vishing kombiniert, erleichtert jedoch das Eindringen in IT-Systeme.
Konkret ist es in der Regel einfacher, die Wachsamkeit eines Mitarbeiters an der Telefonzentrale zu täuschen als die eines IT-Netzwerkadministrators. Letzterer ist nämlich besser über die Techniken von Cyberkriminellen informiert.
So kann ein Visher die Stimme eines Gesprächspartners direkt aufzeichnen oder Aufzeichnungen abrufen, die er nach einem ersten Zugriff im Netzwerk findet.
Anschließend kann er ein Deepvoice-Modell trainieren, das es ihm ermöglicht, glaubwürdige Interaktionen mit anderen Zielen innerhalb der Organisation zu führen. So erhält er Zugang zu immer sensibleren Systemen und Daten.
Woher beziehen die Phisher ihre Informationen?
Die Weiterentwicklung der Kommunikationstechniken erleichtert die Arbeit der Visher, da sie Sprachproben sammeln können, ohne zuvor in ein Netzwerk eindringen zu müssen.
Tatsächlich nehmen immer mehr Menschen ihre Stimme im Internet auf. Dies kann über Videos geschehen, die in sozialen Netzwerken gepostet werden, oder über Sprachnachrichten, die über Messenger-Dienste ausgetauscht werden.
Laut der zuvor erwähnten Studie von McAfee nehmen 55 % der Franzosen mindestens einmal pro Woche ihre Stimme auf. Ein Teil dieser Aufnahmen ist öffentlich zugänglich, der andere Teil könnte durch eine Datenpanne ebenfalls öffentlich werden.
Was Führungskräfte von Unternehmen betrifft, so können gefilmte Konferenzen oder Interviews als Quelle für böswillige Personen dienen. Die Aufzeichnung ihrer Stimme auf ihrer Voicemail, um dazu aufzufordern, eine Nachricht zu hinterlassen, kann ganz einfach eine weitere Quelle sein.
Mit der Entwicklung der KI kann diese Ressource Hackern ermöglichen, sehr leicht die Stimme einer Person zu imitieren, um einen Angriff direkt auf höchster Ebene durchzuführen.
Die Kombination aus KI und Vishing: eine aktuelle und zukünftige Bedrohung
Wenn die Realität die Science-Fiction einholt
Laut der Studie von McAfee waren bereits 11 % der Franzosen direkt mit einem Vishing-Versuch durch Stimmfälschung konfrontiert, und 16 % kennen jemanden, dem dies passiert ist.
Weltweit geben jedoch 36 % der befragten Erwachsenen an, noch nie von diesem Risiko gehört zu haben. Die Bedrohung ist also sowohl sehr ernst als auch unterschätzt.
Darüber hinaus betrachten laut der eingangs erwähnten Studie von Regula mehr als 85 % der Unternehmen Identitätsdiebstahl durch Audio- oder Video-Deepfakes als eine ernst zu nehmende Bedrohung.
Der Bericht zeigt auch, dass Unternehmen sich mehr Sorgen um negative Auswirkungen auf ihren Ruf machen als um finanzielle Verluste durch Angriffe. Dies erklärt wahrscheinlich die Zurückhaltung der betroffenen Unternehmen und die Tatsache, dass dieses Thema derzeit in den Medien kaum Beachtung findet.
Mehrere Fälle von betroffenen Unternehmen
Es gibt zahlreiche Fälle von Privatpersonen, die Opfer von Betrügereien mit KI und Vishing geworden sind, insbesondere in den Vereinigten Staaten. Die Federal Trade Commission bezeichnet Vishing sogar als die gefährlichste Angriffsform in Bezug auf durchschnittliche finanzielle Verluste.
Was Unternehmen betrifft, sind Beispiele schwieriger zu finden, insbesondere aufgrund ihrer mangelnden Kommunikation im Falle eines Angriffs. Dennoch wurden in den letzten Jahren einige Fälle öffentlich bekannt.
Im Jahr 2019 wurde der Geschäftsführer eines britischen Energieunternehmens Opfer eines Vishing-Angriffs und überwies 220.000 € auf ein betrügerisches Konto, nachdem er einen angeblichen Anruf seines in Deutschland ansässigen CEO erhalten hatte. Der Angreifer verwendete eine Deepvoice, um die Stimme und den deutschen Akzent der imitierten Person perfekt nachzuahmen.
Schlimmer noch: Anfang 2024 wurde ein Mitarbeiter eines multinationalen Unternehmens durch eine gefälschte Videokonferenz hereingelegt, bei der alle Teilnehmer durch Deepfakes animiert waren. Das Ergebnis: Der getäuschte Mitarbeiter überwies in gutem Glauben 25 Millionen Dollar.
Ein ähnlicher Fall wurde bereits 2020 gemeldet, bei dem einem japanischen Unternehmen 35 Millionen Dollar gestohlen wurden.
Diese wenigen Beispiele zeigen deutlich das Potenzial von Angriffen, die KI und Vishing kombinieren. Darüber hinaus muss man sich bewusst sein, dass das Schlimmste wahrscheinlich noch bevorsteht und dass sich kein Unternehmen als sicher betrachten kann.
Angriffe trotz technischer Einschränkungen bereits gefährlich
Eine Studie, die 2024 vonder Polytechnischen Hochschule in Quito durchgeführt wurde, simulierte eine Vishing-Kampagne, die auf handelsüblicher Software zum Klonen von Stimmen basierte.
Die Ergebnisse sind erschreckend, da durchschnittlich 60 % der Angerufenen sensible Informationen an ihren Gesprächspartner weitergegeben haben. Nur 15 % der Zielpersonen haben den Angriff vereitelt.

Ergebnisse der Vishing-Tests, die von der Nationalen Polytechnischen Hochschule von Quito mit 150 Anrufen in einem universitären Umfeld durchgeführt wurden.
Die verschiedenen zitierten Studien unterstreichen jedoch die Grenzen der Deepvoice-Technologien. KI-Modelle haben beispielsweise Schwierigkeiten, komplizierte Wörter korrekt auszusprechen oder ungewöhnliche Stimmen oder Redewendungen nachzuahmen.
Es ist jedoch wahrscheinlich, dass diese Grenzen bald überschritten werden und dass Entwicklungen noch weitergehende Angriffe ermöglichen werden.
Deepvoice live: eine zukünftige Plage?
Die Verwendung von Echtzeit-Stimmklonen ist eine besorgniserregende Entwicklung, die es zu berücksichtigen gilt. Sie ermöglicht es Hackern, direkt mit ihrem Ziel zu interagieren.
Derzeit erstellen Visher vor ihren Angriffen Aufzeichnungen. Diese spielen sie dann online mit ihrem Opfer ab. Weicht dieses vom vorgesehenen Skript ab, ist die Wahrscheinlichkeit groß, dass der Angriff fehlschlägt.
Um dieser Einschränkung entgegenzuwirken, arbeiten Hacker das Szenario aus, um die Fragen zu antizipieren, die ihre Ziele stellen könnten. So vermeiden sie Interaktionen so weit wie möglich, wie ein Spezialist in einer online verfügbaren Konferenz erklärt.
Dennoch berichtete eine französische Zeitung kürzlich über einen beunruhigenden Fall, in dem der Betrüger eine Live-Deepvoice-Technologie einsetzte. Ein Sohn, der glaubte, mit seiner Mutter zu telefonieren, konnte die Falle vermeiden, da er Unstimmigkeiten in den Antworten seiner angeblichen Mutter bemerkte. Laut Cybermalveillance.gouv.fr war dies der erste gemeldete Fall in Frankreich.
Wir wissen also, dass es nur eine Frage der Zeit ist, bis KI die Nutzung von Anrufen und sogar Live-Videos in überzeugender Qualität ermöglicht.
Wie kann man sich vor Angriffen schützen, die KI und Vishing kombinieren?
Die richtigen Reflexe und einzuführenden Verfahren
Der Kampf gegen Visher ist keine leichte Aufgabe, da sich die Technologie ständig weiterentwickelt und Hacker immer einen Schritt voraus sind. Es gibt jedoch einige Verfahren und technische Lösungen, um sich vor Angriffen zu schützen, die KI und Vishing kombinieren.
1. Richten Sie eine Multi-Faktor-Authentifizierung (MFA) ein, um auf kritische Informationen zuzugreifen oder Bankgeschäfte durchzuführen.
2. Führen Sie Überprüfungsverfahren ein, um die Identität einer Person zu bestätigen, bevor Sie sensible Anfragen per Telefon beantworten (Rückruf auf eine verifizierte Nummer, Sprachpasswort, Stimmabdruckerkennung usw.).
3. Verwenden Sie für alle sensiblen Gespräche ausschließlich sichere Unternehmens-Chats und machen Sie keine Ausnahmen von diesem Verfahren.
4. Verwenden Sie Authentifizierungs- und Anrufsperrtechnologien, um eingehende Anrufe zu filtern.
5. Stellen Sie Ihrem Gesprächspartner spezifische Fragen, die nur jemand beantworten kann, der Sie wirklich gut kennt.
6. Achten Sie auf Unstimmigkeiten in der Rede Ihres Gesprächspartners (ungewöhnliche Pausen, Veränderungen im Hintergrundgeräusch, Tonfalländerungen usw.).
7. Vermeiden Sie es, Informationen weiterzugeben, wenn Sie auch nur den geringsten Zweifel an Ihrem Gesprächspartner haben.
8. Melden Sie verdächtige Anrufe dem IT-Sicherheitsdienst und Ihren Kollegen, um zu verhindern, dass andere ebenfalls in die Falle tappen.
Diese Schutzmaßnahmen tragen dazu bei, das Risiko zu verringern, Opfer von Vishing zu werden. Die vorliegende Liste ist jedoch nicht vollständig, und die Abwehrtechnologien entwickeln sich ebenso wie die Angriffstechnologien ständig weiter. Angesichts dieser rasanten Entwicklung besteht die beste Lösung weiterhin darin, die Nutzer zu sensibilisieren und zu testen.
Sensibilisieren und testen mit einer Vishing-Simulation
Die beste Waffe der Visher ist die Unwissenheit ihrer Opfer. Eine sensibilisierte Person hat viel bessere Chancen, eine Falle zu umgehen.
Durch Sensibilisierung und Kommunikation mit Angehörigen und Kollegen können diese in ihrer Wachsamkeit gegenüber Manipulationsversuchen gestärkt werden.
Dieser Ansatz ermöglicht es, eine Kultur der Cybersicherheit innerhalb von Organisationen zu etablieren, in der jede Person zu einem aktiven Glied im Schutz sensibler Systeme und Daten wird.
Um das Risiko einer Organisation in Bezug auf Vishing zu bewerten, empfiehlt es sich jedoch, eine Simulationsübung (Vishing-Simulation) durchzuführen, um die Reflexe der Mitarbeiter unter realen Bedingungen zu testen. Auf diese Weise können die Verfahren unter Berücksichtigung der Empfehlungen aus der Simulation angepasst werden.
Fazit
Künstliche Intelligenz verändert die Landschaft der Cyberbedrohungen, und Vishing ist ein eindrucksvolles Beispiel dafür. Für Privatpersonen, Unternehmen, Verbände und öffentliche Einrichtungen müssen „Wachsamkeit” und „Prävention” zu Leitmotiven werden.
Investitionen in Sensibilisierungsmaßnahmen und Vishing-Simulationen, die Einführung geeigneter technologischer Lösungen und die Stärkung interner Verfahren sind wichtige Hebel zum Schutz vor Vishing.
Die Bekämpfung der zunehmenden Bedrohungen durch KI und Vishing erfordert gemeinsames Handeln und eine ständige Anpassung an neue technologische Gegebenheiten.
Diese Risiken, auch wenn sie sich teilweise noch in einem frühen Stadium befinden, erfordern erhöhte Wachsamkeit und proaktive Maßnahmen, um ihre potenzielle Entwicklung zu antizipieren und ihnen entgegenzuwirken.
FAQ: KI und Vishing
1. Was ist Vishing?
Vishing ist eine Form des Telefonbetrugs, bei der sich Cyberkriminelle als vertrauenswürdige Gesprächspartner ausgeben. Ihr Ziel ist es, die Opfer zu manipulieren, um an sensible Informationen oder Zugriff auf Systeme zu gelangen. Im Gegensatz zum klassischen Phishing (per E-Mail) basiert Vishing auf Sprachanrufen.
2. Was ist Deepvoice?
Deepvoice nutzt KI, um menschliche Stimmen realistisch zu klonen. Durch die Analyse einer wenigen Sekunden langen Sprachprobe kann die Software synthetische Stimmen erstellen, die dem Original sehr nahe kommen. Cyberkriminelle können so Angehörige, Kollegen oder Führungskräfte imitieren, um die Glaubwürdigkeit ihrer Angriffe zu erhöhen.
3. Wie sammeln Cyberkriminelle Sprachproben?
Sprachproben werden häufig über folgende Quellen abgerufen:
- Soziale Netzwerke (öffentliche Videos oder Audios).
- Professionelle Aufnahmen (Konferenzen, Interviews).
- Datenlecks aus verschiedenen Plattformen.
- Aufzeichnungen, die nach einem ersten Zugriff auf das System erfasst oder gestohlen wurden.
4. Ist Vishing eine wachsende Bedrohung?
Ja. Mit den Fortschritten in der künstlichen Intelligenz werden Vishing-Angriffe immer raffinierter und schwieriger zu erkennen. Wachsamkeit und Prävention sind unerlässlich, um dieser wachsenden Bedrohung entgegenzuwirken.
5. Welche Risiken bestehen für Unternehmen durch Vishing?
Unternehmen sind mehreren Risiken ausgesetzt, darunter:
- Offenlegung sensibler Daten, wie beispielsweise von Kunden übermittelte Informationen.
- Kompromittierung des IT-Systems mit Löschung oder Verschlüsselung von Daten.
- Finanzielle Verluste aufgrund betrügerischer Überweisungen.
- Schädigung des Rufs der Organisation.
6. Wie kann man sich vor einem Vishing-Angriff schützen?
- Überprüfen Sie immer die Identität Ihres Gesprächspartners, bevor Sie sensible Informationen weitergeben.
- Beantworten Sie dringende Anfragen nicht, ohne sie zuvor doppelt zu überprüfen.
- Seien Sie vorsichtig bei Unstimmigkeiten in der Rede oder im Verhalten Ihres Gesprächspartners.
- Melden Sie verdächtige Anrufe Ihrem Sicherheitsdienst oder den zuständigen Behörden.
7. Wie kann man sich vor Angriffen schützen, die KI und Vishing kombinieren?
Hier sind einige Maßnahmen zur Risikominderung:
- Einrichten einer Multi-Faktor-Authentifizierung (MFA).
- Strenge Verfahren zur Identitätsprüfung anwenden.
- Die Veröffentlichung von Sprachproben auf öffentlichen Plattformen einschränken.
- Verwenden Sie Tools zum Blockieren und Erkennen verdächtiger Anrufe.
- Mitarbeiter für die Risiken von Vishing sensibilisieren.
- Testen Sie die Abwehrmaßnahmen mit einer Vishing-Simulation.
8. Was ist eine Vishing-Simulation?
Eine Vishing-Simulation ist eine kontrollierte Situation, in der die Fähigkeit einer Organisation getestet wird, Vishing-Angriffe zu erkennen und abzuwehren. Sie ermöglicht es, Schwachstellen zu identifizieren, Mitarbeiter zu sensibilisieren und Sicherheitsverfahren zu verbessern.
9. BietetAvantdeCliquer Vishing-Simulationen an?
Ja, das Team vonAvantdeCliquer ist seit 2017 Experte für die Sensibilisierung für alle Formen von Social-Engineering-Angriffen. Wir können Sie dabei unterstützen, die Widerstandsfähigkeit Ihres Unternehmens und Ihrer Mitarbeiter gegenüber einem Vishing-Angriff zu testen. Kontaktieren Sie uns, um mehr zu erfahren.















