Was das in der Praxis bedeutet
Ein Voice Assistant ist eine Kette aus drei Komponenten, die Daten in wenigen Sekunden untereinander weitergeben:
-
Speech-to-Text (STT): Die nutzende Person spricht, die STT-Komponente transkribiert das Audio in Text. Das ist die Grundlage – wenn STT die Person falsch versteht, kann downstream nichts mehr gerettet werden. Die Qualität hängt von der Sprache, der Fähigkeit des Modells, den Akzent zu verarbeiten, Hintergrundgeräuschen und domänenspezifischem Vokabular ab.
-
Sprachmodell (LLM): Der transkribierte Text geht an ein Sprachmodell, das die Absicht versteht und eine schriftliche Antwort generiert. Das ist dieselbe Technologie-Familie, die hinter ChatGPT oder Claude steht. Entscheidend: Das LLM ist es, was den Assistant zu einem Gesprächspartner und nicht zu einer Suchmaske macht – es kann Kontext über Turns hinweg halten, seine Antwort verfeinern und Tools aufrufen.
-
Text-to-Speech (TTS): Die schriftliche Antwort geht an eine TTS-Komponente, die das gesprochene Audio erzeugt, das die Nutzer:innen hören. Die Qualität hier entscheidet, ob der Assistant glaubwürdig oder roboterhaft klingt. Für Projekte im Gesundheitswesen, in der Barrierefreiheit oder im öffentlichen Sektor beeinflusst die Sprachnatürlichkeit direkt, ob dem System vertraut wird.
Jede dieser Komponenten kann in der Cloud (du rufst eine API auf, das Audio verlässt deine Infrastruktur) oder selbst gehostet (die Komponente läuft auf deinem eigenen Server, das Audio verlässt nichts) laufen. Du kannst mischen: Cloud-STT + selbst gehostetes LLM, oder jede andere Kombination. Jede Cloud-Komponente ist ein API-Aufruf mit laufenden Kosten und externem Datenfluss. Selbst gehostete Komponenten erfordern Vorab-Aufwand, verursachen aber keine laufenden Kosten und die Audiodaten bleiben bei dir.
Streaming Audio ist die eine Zutat, die du nicht weglassen kannst. Eine zwei-seitige Gesprächsinteraktion braucht ein System, das Audio kontinuierlich streamt, statt vollständige Äußerungen hin und her zu reichen. Ohne Streaming fühlt sich das Gespräch wie eine langsame Turn-Taking-Übung an. Mit Streaming kann der Agent sich an den Gesprächsfluss der Nutzer:innen anpassen, Unterbrechungen, Pausen und Tempowechsel natürlich handhaben. Bau Streaming ab Tag eins ein, nicht als Nachrüstung.