KI Sprachassistenten mit natürlichem Gesprächsfluss, die funktionieren und auf Infrastruktur laufen, die du kontrollierst

KI-Sprachassistenten von N3XTCODER

Was ein KI-Sprachassistent von N3XTCODER tatsächlich ist

Ein KI-Sprachassistent ist eine Echtzeit-Schnittstelle, die mit deinen Nutzer:innen spricht, für sie handelt und auf Infrastruktur läuft, die du kontrollierst. Wir entwickeln Sprachassistenten auf zwei Pfaden: einem schnellen Cloud-Pfad (ElevenLabs / Azure AI Foundry) für Prototypen, die in Tagen lauffähig sein müssen, und einem vollständig selbst gehosteten Open-Source-Pfad (n8n + Whisper + Ollama + Piper), wenn Souveränität, Kosten oder CO₂-Anforderungen Hyperscaler ausschließen. Den zweiten Pfad haben wir für Mother Earth AI genutzt – den selbst gehosteten Sprachassistent für Klimakommunikation, der den K3-Preis 2023 gewonnen hat.

Was das in der Praxis bedeutet

Mother Earth AI ist das klarste Beispiel. Das Projekt gibt unserem Planeten eine buchstäbliche Stimme für Klimakommunikation. Die Vorgabe: Das System durfte CO₂-Emissionen nicht über hyperskaliert betriebene KI-Anbieter fördern. Souveränität, Autonomie und CO2-Unabhängigkeit waren nicht verhandelbar.

Wir haben mit dem Team einen vollständig selbst gehosteten Sprachassistent gebaut, der auf Ollama als LLM-Plattform und Open WebUI als Oberfläche läuft, mit allen Komponenten auf der eigenen Infrastruktur des Teams. Der Sprachassistent bedient heute zwei Oberflächen: die öffentliche Website mother-earth.ai und ein physisches "Mutter Erde Telefon" – eine Telefoninstallation auf Basis eines Raspberry Pi, die zu Museen, Ausstellungen und Klimaveranstaltungen reist, wo Besucher:innen den Hörer abnehmen und ein Gespräch mit Mutter Erde führen können, ohne App oder Bildschirm. Das Projekt gewann den K3-Preis 2023 für Klimakommunikation.

Die meisten Projekte starten auf dem Cloud-Pfad – ElevenLabs für natürliche Sprachqualität plus Azure OpenAI / GPT-4o via Microsoft AI Foundry für das Sprachmodell. Der Cloud-Pfad liefert einen MVP in 1-2 Wochen. Mother Earth AI ist das Gegenbeispiel, zu dem wir greifen, wenn das Projekt eine harte Souveränitäts-, Kosten- oder Carbon-Bedingung hat, die Hyperscaler ausschließt – Self-Hosting braucht länger im Aufbau, gibt dir aber volle Kontrolle über Daten, Kosten und Energie-Footprint. Mehr in unserem Sprachassistenten-Leitfaden.

Zentrale Bestandteile

Echtzeit-Konversation icon

Echtzeit-Konversation

  • Turn-Taking, Umgang mit Unterbrechungen und natürliche Pausen
  • Live-Streaming-Architektur mit LiveKit und Fast RTC, wo angebracht

Zwei Auslieferungspfade icon

Zwei Auslieferungspfade

  • Cloud-Pfad: ElevenLabs + Azure AI Foundry für schnelle MVPs (1-2 Wochen)
  • Selbst gehosteter Pfad: n8n + Whisper + Ollama + Piper für volle Souveränität

Tool Calling und Aktion icon

Tool Calling und Aktion

  • Sprachassistenten, die tatsächlich etwas tun: Termine buchen, Datenbanken abfragen, Workflows auslösen
  • Tool Calling und Orchestrierung mit MCP und dem LiveKit Agent Framework

Ergebnisse

Ein Sprachassistent, der funktioniert icon

Ein Sprachassistent, der funktioniert

Wir entwickeln seit >3 Jahren selbst-gehostete Architekturen für Sprachassistenten

Time to first MVP icon

Time to first MVP

1-2 Wochen in der Cloud; etwas länger bei Self-Hosting, mit klarem Migrationspfad zwischen beiden

Modernste Sprachmodelle icon

Modernste Sprachmodelle

Parakeet, Whisper und Moonshine für Speech-to-Text; Kokoro und Piper für Text-to-Speech, in deiner Sprache – und anderen

Souveränität per Design

Selbst gehostetes Ollama + Open-Source-TTS / -STT bedeutet, dass Audio deine Infrastruktur nicht verlassen muss, wenn du es nicht willst

CO2-transparent

Hosting auf Servern, die mit erneuerbaren Energien betrieben werden; Transparente Energiekosten von Sprachmodellen

Lust auf ein Vorgespräch? Buche ein Telefonat: Kostenfrei, auf den Punkt.

So funktioniert es

1. Use Case und Architektur

  • Cloud vs. Self-Hosted entscheiden – nach Datensensibilität, Kosten über 12-24 Monate und Compliance-Anforderungen
  • Die richtigen STT-, LLM- und TTS-Komponenten für deine Sprache und Domäne wählen
  • Tool Calling und Integrationen planen

2. Den lauffähigen Agent bauen

  • Erster MVP in 1-2 Wochen auf dem Cloud-Pfad
  • Mit echten Nutzer:innen in einer echten akustischen Umgebung testen, nicht im Labor
  • Stimmen, Prompts und Tool Calling gegen echte Gespräche tunen

3. Deployment und Betrieb

  • Cloud-Deployment via Azure oder deinen Trusted EU Provider
  • Self-Hosted-Deployment via Docker / Kubernetes auf deiner eigenen Infrastruktur oder bei Ionos
  • Dokumentation und Übergabe, damit dein Team das System betreiben kann

Warum N3XTCODER

Wir bringen ein Jahrzehnt Impact-Tech-Erfahrung und über 160 KI-Projekte seit 2019 mit. Über unseren kostenlosen Kurs AI for Impact haben über 100.000 Menschen gelernt, KI für das Gemeinwohl einzusetzen. Wir machen keine Inspirationstage. Wir machen Scoping-Sessions und Build-Engagements, die in Produktion gehen – so wie wir KI für die folgenden Organisationen ausgeliefert haben:

  • Mother Earth AI – selbst gehosteter Sprachassistent für Klimakommunikation, Gewinner des K3-Preises 2023, im Einsatz in Museen und auf "Mutter Erde Telefon"-Raspberry-Pi-Installationen
  • Ein führendes Mitgliedernetzwerk – produktiver RAG-Chatbot, der 1.000+ HumHub-Mitglieder bedient, auf n8n + Qdrant + GPT-4 via Microsoft EU, in vier Sprints geliefert
  • GDV (Gesamtverband der Deutschen Versicherungswirtschaft) – KI-Wissensassistent über zehntausende Policy-Dokumente für 400+ Mitgliedsunternehmen, auf Azure AI Search + GPT-4o via Microsoft AI Foundry. Recherchezeit halbiert, Schatten-KI verhindert, Mitarbeitendenzufriedenheit gesteigert
  • Ein führender deutscher Verband – KI-Mitgliederplattform ("Verbands-GPT") mit Chat-basierter Discovery und klassischen Kategoriefiltern, auf Microsoft AI Foundry + pgvector
  • Eine führende Spendenplattform – KI-E-Mail-Agent mit verpflichtender menschlicher Prüfung im Pilot, auf N8N und Azure OpenAI
  • Standard-Stack: n8n in Berlin, Qdrant oder pgvector für die Vektorsuche, Azure OpenAI / GPT-4o via Microsoft AI Foundry, plus Open-Source-EU-Alternativen wie Mistral, Milvus und selbst gehostete Ollama / Whisper / Piper für souveräne Deployments.

Ehrliche Grenzen

Sprachassistenten scheitern, wenn sie keine Echtzeit-Unterbrechung erlauben. Frage-Antwort-Systeme im Sprachnachrichten-Stil sind einfacher zu bauen, frustrieren Nutzer:innen aber. Echtes Turn-Taking muss von Anfang an mitgedacht werden – nicht nachträglich draufgeschraubt.

Sprachqualität ist nicht gelöst. Cloud-TTS-Anbieter wie ElevenLabs schlagen Open-Source-TTS wie Piper oder Coqui in der Natürlichkeit immer noch. Open Source schließt die Lücke schnell, aber wenn Sprachqualität entscheidend ist, ergibt der Cloud-Pfad mehr Sinn.

Mehrsprachigkeit ist ungleich. Spracherkennung und -synthese in den großen europäischen Sprachen funktionieren exzellent. In kleineren Sprachen und Dialekten ist die Lage uneinheitlich. Mit deiner echten Zielgruppe testen, bevor du dich festlegst.

Voice frisst Energie. Voice-Modelle sind schwerer als Text-Modelle. Wir tracken die Kosten und legen sie offen, statt sie zu verstecken. Für Projekte, bei denen Carbon-Ehrlichkeit zählt – wie Mother Earth AI – prägt das die Architekturentscheidung.

Häufige Fragen

Bau einen KI-Sprachassistent mit N3XTCODER

Erzähl uns vom Use Case und den Bedingungen. Wir antworten mit einer vorgeschlagenen Architektur und einem Termin, meist innerhalb eines Werktags.

Simon Stegemann
Co-Founder and CEO

Weitere Services