AI Voice Agent: Forstå teknologien bag nu | Agent360
Hvis du spørger en lægmand, er en AI Voice Agent “en robot, man kan tale med”. Hvis du spørger en ingeniør, er det et komplekst orkestrerings-lag, ...
Indholdsfortegnelse
Hvis du spørger en lægmand, er en AI Voice Agent “en robot, man kan tale med”.
Hvis du spørger en ingeniør, er det et komplekst orkestrerings-lag, der håndterer asynkrone audio-streams med sub-800ms latency.
I Agent360 bygger vi ikke bare “chatbots”. Vi bygger Realtime Voice Infrastructure.
Men hvad betyder det egentlig?
I denne deep dive åbner vi motorhjelmen på JesperAI.
Vi ser på skiftet fra den gamle “Pipeline” arkitektur til den nye “End-to-End” model, og vi analyserer de specifikke udfordringer ved at køre Voice AI på dansk.
Del 1: Evolutionen af Voice AI
For at forstå, hvorfor 2026 er året for Voice AI, skal vi se på latens (ventetid).
I en menneskelig samtale er der typisk 200-500ms stilhed mellem spørgsmål og svar.
Hvis pausen bliver længere end 1000ms (1 sekund), begynder vores hjerne at tro, at modparten ikke hørte os, eller at forbindelsen røg.
Gen 1: “The Pipeline” (Det gamle system)
Indtil slutningen af 2024 fungerede næsten alle Voice Agents ved at kæde tre separate API‘er sammen:
- ASR (Automatic Speech Recognition): Lyd $\to$ Tekst (f.eks. Google STT).
- Latency: 400-800ms.
- LLM (Inference): Tekst $\to$ Tekst (f.eks. GPT-4 Turbo).
- Latency: 800-2000ms.
- TTS (Text-to-Speech): Tekst $\to$ Lyd (f.eks. ElevenLabs).
- Latency: 400-800ms.
Total Roundtrip Latency: 2.500 - 4.000ms (2,5 - 4 sekunder).
Resultat: En hakkende, unaturlig samtale, hvor man hele tiden afbryder hinanden.
Gen 2: “End-to-End Audio” (JesperAI)
Med lanceringen af OpenAI Realtime API (tidligere GPT-4o Audio) og specialiserede orkestratorer som Vapi, er spillet ændret.
Modellen modtager nu lyd-tokens direkte som input og genererer lyd-tokens som output.
Der er ingen mellemliggende tekst-konvertering.
- Audio In/Out Processing: 200ms.
- Network (Websockets): 100ms.
- Model Inference: 300ms.
Total Roundtrip Latency: ~600-800ms.
Dette er tæt på menneskelig reaktionstid. Det føles øjeblikkeligt.
Del 2: Arkitekturen i Agent360
Når du ringer til JesperAI, sker der en kompleks dans mellem fire systemer.
Her er stacken:
1. Telefoni-laget (Twilio / SIP)
Opkaldet kommer ind via det almindelige telefonnet (PSTN).
Vi bruger Twilio til at modtage opkaldet og konvertere det til en WebSocket Stream.
Denne stream sender rå audio (ulaw 8kHz) direkte til vores servere.
2. Orkestratoren (Vapi.ai)
Dette er “hjernen” i operationen. Vapi styrer flowet:
* VAD (Voice Activity Detection): Vapi lytter konstant. Hvis brugeren stopper med at tale i mere end 800ms (konfigurerbart), antager Vapi, at det er tid til at svare.
* Barge-in (Afbrydelser): Hvis brugeren begynder at tale, mens AI’en taler, skal Vapi øjeblikkeligt sende et “Clear Buffer” signal til lyd-udgangen. Dette får AI’en til at tie stille med det samme (under 200ms forsinkelse), præcis som et menneske ville gøre.
3. Intelligensen (LLM)
Her bruger vi en custom-tunet version af GPT-4o.
Vi forsyner modellen med en “System Prompt”, der definerer dens personlighed, viden og begrænsninger.
* Eksempel: “Du er Jesper, en erfaren mødebooker. Du taler kort og præcist. Du må ikke hallucinere priser.”
4. Værktøjerne (Function Calling)
En AI, der kun kan snakke, er ubrugelig. Den skal kunne handle.
Via “Function Calling” giver vi AI’en adgang til vores API.
Eksempel på et flow:
1. Kunde: “Kan I tirsdag kl. 10?”
2. AI (Tanke): Jeg skal tjekke kalenderen. $\to$ Kalder funktion check_calendar(date="2025-11-28", time="10:00").
3. API (Agent360): Returnerer {"available": true}.
4. AI (Tale): “Ja, tirsdag kl. 10 er ledig. Skal jeg booke det?”
Del 3: Udfordringen med Dansk Sprog
Engelsk Voice AI har været godt længe. Dansk er sværere.
Vi har arbejdet intensivt med at optimere stacken til danske forhold.
STT: Deepgram Nova-2
Standard STT-modeller (som Whisper) er gode, men ofte for langsomme til realtime.
Vi bruger Deepgram Nova-2, som er state-of-the-art på hastighed og præcision.
* WER (Word Error Rate) på dansk: Under 5% (ved klar tale).
* Håndtering af tal: Vi har implementeret custom “Text Normalization” regler, så “200” bliver læst som “to hundrede” og ikke “to nul nul”.
TTS: ElevenLabs Turbo v2.5
For at generere stemmen bruger vi ElevenLabs.
Deres “Turbo v2.5” model har reduceret latency fra 500ms til under 200ms.
Vi har klonet “Jesper’s” stemme (med tilladelse) for at give en varm, dansk klang, der ikke lyder robot-agtig.
Del 4: Sikkerhed og GDPR
Når vi behandler lyd-data, er sikkerhed altafgørende.
- Zero Data Retention: Vi har Enterprise-aftaler med OpenAI og Vapi. Det betyder, at ingen samtaler bruges til at træne deres modeller. Din data forlader hukommelsen, så snart opkaldet er slut.
- Server Location: Hvor det er muligt, router vi data gennem EU-servere (Frankfurt/Dublin). For visse low-latency calls bruger vi US-east (Virginia), men med fuld kryptering (TLS 1.3) i transit.
- PII Redaction: Vi kan automatisk fjerne CPR-numre og kreditkortoplysninger fra transkriptionen, før den gemmes i databasen.
Konklusion: Fremtiden er her
Teknologien bag AI Voice Agents bevæger sig eksponentielt.
Det, der var umuligt for 6 måneder siden (flydende, afbrydelig dansk samtale), er standard i dag.
Med Agent360 får du ikke bare en “bot”.
Du får en komplet infrastruktur, der kombinerer verdens bedste komponenter (Vapi, OpenAI, Deepgram, Twilio) i én samlet, dansk løsning.
Vi har gjort det hårde integrations-arbejde, så du kan fokusere på dine kunder.
Se API dokumentationen her
Book en teknisk demo
Forestil dig dette setup:
1. JesperAI (The Hunter): Ringer kold kanvas til 10.000 emner. Han finder de 500, der er interesserede, og booker møder direkte i kalenderen.
2. Menneskelige Sælgere (The Closers): Møder op til de bookede møder. De bruger deres tid på at sælge til varme leads, i stedet for at blive afvist i telefonen.
Dette øger ikke bare omsætningen. Det øger arbejdsglæden for dine sælgere, fordi de slipper for det opslidende “rugbrødsarbejde”.
Vil du høre JesperAI?
Ord kan kun beskrive så meget. Du skal høre det for at tro det.
Vi har en live demo klar, hvor du kan ringe ind og tale med JesperAI – eller få ham til at ringe til dig.
Er du klar til at skalere din mødebooking?
Book en demo og hør JesperAI live her
Kilder & Data
Denne artikel er baseret på markedsdata og analyser fra:
* Harvard Business Review - Sales & Marketing
* Gartner Sales Insights
Indhold
Relaterede artikler

AI Mødebooking til Forsikringsmæglere: Spar Tid og Øg Salget
Optimer din tid med AI mødebooking til forsikringsmæglere. Sig farvel til 'nej tak' og få flere kvalificerede møder. Start din rejse mod effektivitet i ...

AI-Augmented Salg: Bliv en vinder nu! | Agent360
Boost dit salg med AI-Augmented Salg! Opdag strategier, der gør dig til en vinder nu. Læs mere hos Agent360 og tag føringen i din branche!

Optimer Dit Salg med AI: De 7 Uundgåelige... | Agent360
Opdag de 7 bedste AI-værktøjer til salg i 2026. Byg en datadrevet salgsinfrastruktur og øg produktiviteten med op til 67%. Guide til Agent360.