Text-to-Speech (TTS): Vad är det och hur kan man stoppa bedrägerier som använder det?
Text-till-tal (TTS): Vad är det och hur stoppar man bedrägerier som använder sig av det?
Alla verkar överens om att artificiell intelligens (AI) snabbt förändrar världen, och detta gäller även inom bedrägeribekämpning.
En särskilt intressant teknik för oss som arbetar med bedrägerifrågor är Text-to-Speech (TTS). Lars Broekhuizen, bedrägerispecialist vid DetACT-teamet på DataExpert, beskriver hur TTS-området ser ut, hur det har utvecklats och vad som kan göras för att bekämpa bedrägerier med hjälp av TTS-teknik.
TTS – Att avkoda den digitala rösten
TTS-motorer är AI-modeller som omvandlar skriven text till mänskligt tal. Ökningen av fall där offer för finansiella bedrägerier hävdar att de fått telefonsamtal från någon som låter precis som en familjemedlem – men som visar sig vara en bedragare – är oroande och sprider sig snabbt över hela världen. Dessa attacker kan utföras av kriminella som använder TTS-teknik med så kallade "röstklonings"-möjligheter.
Låt oss undersöka hur TTS-landskapet ser ut, hur det har utvecklats och vad vi i bedrägeribekämpningsgemenskapen kan göra för att bekämpa TTS-relaterad brottslighet.
En jämförelse av moderna TTS-modeller (SOTA)
En av de största skiljelinjerna inom AI är öppen källkod (Open Source) kontra sluten källkod (Closed Source).
- Sluten källkod: Företag som OpenAI håller sina modeller, som GPT-4, exklusiva och tillgängliga endast via deras egna servrar och gränssnitt.
- Öppen källkod: Modeller som Metas Llama-serie släpps till allmänheten för att användas på egen hårdvara.
Inom TTS-området kan vi nämna ElevenLabs (sluten källkod) och Coqui (öppen källkod) som exempel. Företag som Microsoft Azure TTS och Googles Text-to-Speech dominerar också marknaden tack vare sina enorma resurser. För öppna projekt är det största hindret ofta att få tag på högkvalitativa datasets lagligt och till rimliga kostnader.
Trots förväntningar på att kriminella skulle föredra integritetsvänliga öppna modeller, verkar det som om de ofta väljer sluten källkod tack vare överlägsen prestanda och enkel åtkomst via anonyma betalda konton.
Röstkloning – Att skapa digitala dubbelgångare
Röstkloning innebär att AI-modeller återskapar en persons röst med hjälp av intonation, tempo, rytm och andra unika egenskaper. Det finns två huvudsakliga metoder:
- Zero-shot kloning: AI kan klona en röst direkt efter att ha analyserat ett kort klipp (ca 10 sekunder).
- Finjustering (finetuning): En mer tidskrävande metod där en större datamängd (30–60 minuter) samlas in och används för att skapa mycket övertygande röstkloner.
Hur trovärdiga är röstkloner egentligen?
En rapport från Verian 2023, beställd av den nederländska regeringen, testade hur övertygande röstkloner kan vara. Med hjälp av den kände radioprataren Ruud de Wild visade resultaten att:
- 60 % av deltagarna misstog en klonad röst för att vara äkta.
- Endast 49 % kunde korrekt identifiera klonade röstklipp.
Dessa siffror understryker klonade röstklipps trovärdighet på global nivå.
Konvergerande teknologier – TTS, STT och LLMs som katalysatorer för digitalt bedrägeri
Digitala assistenter kombinerar ofta tal-till-text (STT), text-till-tal (TTS) och stora språkmodeller (LLMs). Bedragare kan använda dessa teknologier för att automatisera social ingenjörskonst, t.ex.:
- Ringa upp offer med klonade röster av nära och kära.
- Falska videokonferenser med AI-genererade ansiktsöverlagringar.
Denna teknik kan skalas upp för att ringa tusentals offer samtidigt, vilket gör det svårt för banker att hantera attackerna.
Motstrategier mot TTS-relaterad bedrägeri
- Medvetenhet och utbildning: Informera kunder om AI:s möjligheter och hur röstkloning fungerar.
- Säkerhetsfrågor: Träna kundtjänst att upptäcka AI-drivna samtal genom att ställa frågor om talmönster eller fördröjningar i samtalet.
- Familjelösenord: En enkel fras som endast familjemedlemmar känner till kan användas för att bekräfta identitet.
Sammanfattning
TTS och röstkloning utvecklas snabbt och kan skapa stora utmaningar för anti-bedrägeriverksamheter. DataExpert erbjuder stöd för att skydda kunder och bekämpa bedrägerier, från tekniska lösningar till utbildning och återvinning av förlorade medel. Kontakta oss för mer information.
[1] https://x.com/_josh_meyer_/status/1742522906041635166
[2] https://openai.com/index/disrupting-deceptive-uses-of-AI-by-covert-influence-operations/
[3] https://open.overheid.nl/documenten/90f7e7db-299a-43af-9874-8e157af50081/file
[4] https://www.cbs.nl/en-gb/news/2023/45/digital-proficiency-continues-to-rise
[5] https://www.forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-fraud-uses-deep-fake-voice-tech-to-steal-millions/
[6] https://www.npr.org/2024/07/09/g-s1-9010/russia-bot-farm-ai-disinformation
[7] https://x.com/reshetz/status/1802971109576397010
[8] https://www.nbcnews.com/tech/internet/hunting-ai-bots-four-words-trick-rcna161318