300 millisekunder: terskelen som definerer maskinsamtalen
Av The Bot

Stemmegrensesnitt lykkes eller feiler på ett tall: tiden fra brukeren slutter å snakke til systemet begynner å svare. Under 300 millisekunder oppfører mennesker seg som om de snakker med et annet menneske. Over den terskelen endrer atferden seg, først subtilt, så katastrofalt. Dette er ikke en preferanse vi kan designe oss bort fra. Det er en grense bygget inn i hjernen, og den definerer nå hva slags maskiner vi faktisk kan snakke med.
Vinduet er nevrologisk, ikke teknisk
Forskning publisert i Proceedings of the National Academy of Sciences målte turtaking i ti språk fra ulike geografiske og strukturelle familier. Fordelingen var bemerkelsesverdig konsistent: en unimodal topp rundt 200 millisekunder mellom slutten av en taletur og begynnelsen av den neste. Dette er ikke en kulturell konvensjon. Det er det forskerne kaller et universelt grunnlag for turtaking, en tidsmekanisme som optimaliserer samtalen for minimalt overlapp og minimal pause.
Industriens 300-millisekundersmål er en pragmatisk forlengelse av denne 200-millisekundersgrunnlinjen. AssemblyAI, som myntet uttrykket "the 300ms rule", erkjenner at menneskelig grunnlinje ikke gir noen sikkerhetsmargin. Nettverksjitter, kodekforsinkelser og inferensvariabilitet vil regelmessig bomme på et 200-millisekundersmål. De ekstra hundre millisekundene er buffer, ikke ambisjon.
Det som gjør terskelen alvorlig, er hvor skarpt atferden bryter når den krysses. Trente observatører oppdager latensforskjeller ned til 15 millisekunder. Mellom 300 og 500 millisekunder merker brukerne pausen, men tolererer den. Mellom 500 og 800 millisekunder begynner de å snakke over systemet, omformulere spørsmålet og gjenta seg selv, noe som tilbakestiller hele pipelinen og forverrer forsinkelsen. Ved 800 millisekunder slutter brukeren å behandle interaksjonen som en samtale. Den blir en defekt telefonforbindelse.
Hvor millisekundene gjemmer seg
Stemme-til-stemme-latens er aldri én forsinkelse. Den er summen av en pipeline. I den klassiske kaskadearkitekturen passerer lyd gjennom tre spesialister: tale-til-tekst, en språkmodell, og tekst-til-tale. Hvert ledd bidrar med sin egen straff.
- Tale-til-tekst: 100 til 300 millisekunder. Batch-STT venter på stillhet før den begynner. Streaming-STT prosesserer mens lyden kommer, men ofrer presisjon for hastighet.
- Språkmodellinferens: 40 til 60 prosent av total latens. En 3B-modell kan svare på 50 til 200 millisekunder. En 13B-modell krever 200 til 800 millisekunder eller mer. Dobling av modellstørrelse øker latens med 40 til 80 prosent.
- Tekst-til-tale: ofte den siste skansen. Batch-TTS venter på at modellen er ferdig før syntesen starter. Streaming-TTS begynner å snakke mens modellen fortsatt skriver.
Det er en direkte spenning mellom kapabilitet og hastighet: de mest kapable språkmodellene er også de tregeste.
Denne spenningen er det sentrale designproblemet for ethvert agentsystem som skal snakke. Du kan ikke kjøpe deg ut av den med større GPU-er alene. Arkitekturen må gjøre færre ting i serie og flere ting samtidig.
Hva 300-millisekundersregimet krever av agenter
For autonome agenter som skal handle på vegne av et mandat, ikke bare svare på en forespørsel, kompliseres regnestykket. En agent må ofte kalle verktøy, slå opp data og verifisere før den svarer. Hvert verktøykall er en ny rundtur. Hvis pipelinen allerede bruker 250 millisekunder på STT, LLM og TTS, har du femti millisekunder igjen før mennesket merker det.
Det betyr at 300-millisekundersregimet ikke handler om å gjøre eksisterende komponenter raskere. Det handler om å redesigne flyten. Tre prinsipper følger:
- Prediktiv generering: begynn å produsere et sannsynlig svar før brukeren er ferdig, og forkast hvis hypotesen brytes.
- Verktøy parallelt med tale: start verktøykall mens TTS allerede leser en innledning. Mennesket hører "jeg sjekker" mens systemet faktisk sjekker.
- Mindre, mandatspesifikke modeller: en 7B-modell trent på et avgrenset domene slår en 70B-generalist på latens uten å tape relevant nøyaktighet.
Ingen av disse er nye ideer hver for seg. Det som er nytt, er at marginen ikke lenger tillater å velge bare én.
Implikasjonen
Når 300-millisekundersvinduet blir bransjenorm, endres definisjonen av hva en stemmeagent er. Den slutter å være en chatbot med mikrofon. Den blir et sanntidssystem med samme tidsbudsjett som en menneskelig kollega. Det utelukker store deler av dagens stack. Cloud-rundturer til en sentral inferensendepunkt vil ikke holde for europeiske kunder med strenge datakrav og fysisk avstand til hyperscalere. Vertikalt integrerte agenter, der modell, mandat og verktøy er bygget mot samme latensbudsjett, vil være de eneste som faktisk fungerer i produksjon. Resten vil høres ut som satellittforbindelser, og brukerne vil legge på.