KI Sprachassistenten mit natürlichem Gesprächsfluss, die funktionieren und auf Infrastruktur laufen, die du kontrollierst

Q: Cloud oder Self-Hosted – wofür sollten wir uns entscheiden?

Wenn du in Tagen einen lauffähigen MVP brauchst und deine Daten nicht sensibel sind, startest du mit dem Cloud-Pfad (ElevenLabs + Azure AI Foundry). Wenn dein Projekt sensible Daten verarbeitet, strenge Compliance hat, im großen Maßstab läuft (wo API-Kosten schnell steigen) oder eine Carbon-Bedingung hat – gehst du selbst gehostet. Mother Earth AI ist auf dem selbst gehosteten Pfad, weil alle drei Gründe zutrafen.

Q: Wie lange dauert ein KI-Sprachassistent bis zur Auslieferung?

1-2 Wochen für einen cloudbasierten MVP. Länger für den selbst gehosteten Pfad wegen der Infrastruktur, aber das Langzeit-Kostenprofil und die Kontrolle sind sehr unterschiedlich.

Q: Welche Sprachen unterstützt ihr?

STT und TTS in den großen europäischen Sprachen, einschließlich Deutsch, Englisch und Französisch. Kleinere Sprachen hängen vom Modell ab – wir testen mit deiner echten Zielgruppe.

Q: Kann der Sprachassistent handeln?

Ja. Tool Calling via MCP und dem LiveKit Agent Framework lässt den Agent Termine buchen, Datenbanken abfragen, n8n-Workflows auslösen oder jede API ansprechen, auf die du ihm Zugriff gibst.

Q: Wo geht das Audio hin?

Auf dem selbst gehosteten Pfad nirgendwohin. Audio bleibt auf deiner Infrastruktur. Auf dem Cloud-Pfad wird Audio von deinem gewählten Anbieter verarbeitet – das klären wir als Teil des Compliance-Designs, bevor irgendein Code geschrieben wird.

Q: Könnt ihr eine physische Voice-Installation wie das Mutter Erde Telefon bauen?

Ja. Das Mutter Erde Telefon ist ein Raspberry Pi mit WLAN und Telefonhörer, angebunden an dieselbe selbst gehostete Infrastruktur wie die Web-Version. Plug-and-Play für Museen, Ausstellungen oder Klimaveranstaltungen. Sprich mit uns über deine Installationsidee.

Was ein KI-Sprachassistent von N3XTCODER tatsächlich ist

Ein KI-Sprachassistent ist eine Echtzeit-Schnittstelle, die mit deinen Nutzer:innen spricht, für sie handelt und auf Infrastruktur läuft, die du kontrollierst. Wir entwickeln Sprachassistenten auf zwei Pfaden: einem schnellen Cloud-Pfad (ElevenLabs / Azure AI Foundry) für Prototypen, die in Tagen lauffähig sein müssen, und einem vollständig selbst gehosteten Open-Source-Pfad (n8n + Whisper + Ollama + Piper), wenn Souveränität, Kosten oder CO₂-Anforderungen Hyperscaler ausschließen. Den zweiten Pfad haben wir für Mother Earth AI genutzt – den selbst gehosteten Sprachassistent für Klimakommunikation, der den K3-Preis 2023 gewonnen hat.

Was das in der Praxis bedeutet

Mother Earth AI ist das klarste Beispiel. Das Projekt gibt unserem Planeten eine buchstäbliche Stimme für Klimakommunikation. Die Vorgabe: Das System durfte CO₂-Emissionen nicht über hyperskaliert betriebene KI-Anbieter fördern. Souveränität, Autonomie und CO2-Unabhängigkeit waren nicht verhandelbar.

Wir haben mit dem Team einen vollständig selbst gehosteten Sprachassistent gebaut, der auf Ollama als LLM-Plattform und Open WebUI als Oberfläche läuft, mit allen Komponenten auf der eigenen Infrastruktur des Teams. Der Sprachassistent bedient heute zwei Oberflächen: die öffentliche Website mother-earth.ai und ein physisches "Mutter Erde Telefon" – eine Telefoninstallation auf Basis eines Raspberry Pi, die zu Museen, Ausstellungen und Klimaveranstaltungen reist, wo Besucher:innen den Hörer abnehmen und ein Gespräch mit Mutter Erde führen können, ohne App oder Bildschirm. Das Projekt gewann den K3-Preis 2023 für Klimakommunikation.

Die meisten Projekte starten auf dem Cloud-Pfad – ElevenLabs für natürliche Sprachqualität plus Azure OpenAI / GPT-4o via Microsoft AI Foundry für das Sprachmodell. Der Cloud-Pfad liefert einen MVP in 1-2 Wochen. Mother Earth AI ist das Gegenbeispiel, zu dem wir greifen, wenn das Projekt eine harte Souveränitäts-, Kosten- oder Carbon-Bedingung hat, die Hyperscaler ausschließt – Self-Hosting braucht länger im Aufbau, gibt dir aber volle Kontrolle über Daten, Kosten und Energie-Footprint. Mehr in unserem Sprachassistenten-Leitfaden.

Zentrale Bestandteile

Echtzeit-Konversation icon

Echtzeit-Konversation

Turn-Taking, Umgang mit Unterbrechungen und natürliche Pausen
Live-Streaming-Architektur mit LiveKit und Fast RTC, wo angebracht

Zwei Auslieferungspfade icon

Zwei Auslieferungspfade

Cloud-Pfad: ElevenLabs + Azure AI Foundry für schnelle MVPs (1-2 Wochen)
Selbst gehosteter Pfad: n8n + Whisper + Ollama + Piper für volle Souveränität

Tool Calling und Aktion icon

Tool Calling und Aktion

Sprachassistenten, die tatsächlich etwas tun: Termine buchen, Datenbanken abfragen, Workflows auslösen
Tool Calling und Orchestrierung mit MCP und dem LiveKit Agent Framework

Ergebnisse

Ein Sprachassistent, der funktioniert icon

Ein Sprachassistent, der funktioniert

Wir entwickeln seit >3 Jahren selbst-gehostete Architekturen für Sprachassistenten

Time to first MVP icon

Time to first MVP

1-2 Wochen in der Cloud; etwas länger bei Self-Hosting, mit klarem Migrationspfad zwischen beiden

Modernste Sprachmodelle icon

Modernste Sprachmodelle

Parakeet, Whisper und Moonshine für Speech-to-Text; Kokoro und Piper für Text-to-Speech, in deiner Sprache – und anderen

Souveränität per Design

Selbst gehostetes Ollama + Open-Source-TTS / -STT bedeutet, dass Audio deine Infrastruktur nicht verlassen muss, wenn du es nicht willst

CO2-transparent

Hosting auf Servern, die mit erneuerbaren Energien betrieben werden; Transparente Energiekosten von Sprachmodellen

**Lust auf ein Vorgespräch? Buche ein Telefonat: Kostenfrei, auf den Punkt.**

So funktioniert es

1. Use Case und Architektur

Cloud vs. Self-Hosted entscheiden – nach Datensensibilität, Kosten über 12-24 Monate und Compliance-Anforderungen
Die richtigen STT-, LLM- und TTS-Komponenten für deine Sprache und Domäne wählen
Tool Calling und Integrationen planen

2. Den lauffähigen Agent bauen

Erster MVP in 1-2 Wochen auf dem Cloud-Pfad
Mit echten Nutzer:innen in einer echten akustischen Umgebung testen, nicht im Labor
Stimmen, Prompts und Tool Calling gegen echte Gespräche tunen

3. Deployment und Betrieb

Cloud-Deployment via Azure oder deinen Trusted EU Provider
Self-Hosted-Deployment via Docker / Kubernetes auf deiner eigenen Infrastruktur oder bei Ionos
Dokumentation und Übergabe, damit dein Team das System betreiben kann

Warum N3XTCODER

Wir bringen ein Jahrzehnt Impact-Tech-Erfahrung und über 160 KI-Projekte seit 2019 mit. Über unseren kostenlosen Kurs AI for Impact haben über 100.000 Menschen gelernt, KI für das Gemeinwohl einzusetzen. Wir machen keine Inspirationstage. Wir machen Scoping-Sessions und Build-Engagements, die in Produktion gehen – so wie wir KI für die folgenden Organisationen ausgeliefert haben:

Mother Earth AI – selbst gehosteter Sprachassistent für Klimakommunikation, Gewinner des K3-Preises 2023, im Einsatz in Museen und auf "Mutter Erde Telefon"-Raspberry-Pi-Installationen
Kompetenzz – produktiver RAG-Chatbot, der 1.000+ HumHub-Mitglieder bedient, auf n8n + Qdrant + GPT-4 via Microsoft EU, in vier Sprints geliefert
GDV (Gesamtverband der Deutschen Versicherungswirtschaft) – KI-Wissensassistent über zehntausende Policy-Dokumente für 400+ Mitgliedsunternehmen, auf Azure AI Search + GPT-4o via Microsoft AI Foundry. Recherchezeit halbiert, Schatten-KI verhindert, Mitarbeitendenzufriedenheit gesteigert
Ein führender deutscher Verband – KI-Mitgliederplattform ("Verbands-GPT") mit Chat-basierter Discovery und klassischen Kategoriefiltern, auf Microsoft AI Foundry + pgvector
innatura – KI-E-Mail-Agent mit verpflichtender menschlicher Prüfung im Pilot, auf N8N und Azure OpenAI
Standard-Stack: n8n in Berlin, Qdrant oder pgvector für die Vektorsuche, Azure OpenAI / GPT-4o via Microsoft AI Foundry, plus Open-Source-EU-Alternativen wie Mistral, Milvus und selbst gehostete Ollama / Whisper / Piper für souveräne Deployments.

Ehrliche Grenzen

Sprachassistenten scheitern, wenn sie keine Echtzeit-Unterbrechung erlauben. Frage-Antwort-Systeme im Sprachnachrichten-Stil sind einfacher zu bauen, frustrieren Nutzer:innen aber. Echtes Turn-Taking muss von Anfang an mitgedacht werden – nicht nachträglich draufgeschraubt.

Sprachqualität ist nicht gelöst. Cloud-TTS-Anbieter wie ElevenLabs schlagen Open-Source-TTS wie Piper oder Coqui in der Natürlichkeit immer noch. Open Source schließt die Lücke schnell, aber wenn Sprachqualität entscheidend ist, ergibt der Cloud-Pfad mehr Sinn.

Mehrsprachigkeit ist ungleich. Spracherkennung und -synthese in den großen europäischen Sprachen funktionieren exzellent. In kleineren Sprachen und Dialekten ist die Lage uneinheitlich. Mit deiner echten Zielgruppe testen, bevor du dich festlegst.

Voice frisst Energie. Voice-Modelle sind schwerer als Text-Modelle. Wir tracken die Kosten und legen sie offen, statt sie zu verstecken. Für Projekte, bei denen Carbon-Ehrlichkeit zählt – wie Mother Earth AI – prägt das die Architekturentscheidung.

Häufige Fragen

Cloud oder Self-Hosted – wofür sollten wir uns entscheiden?

Wie lange dauert ein KI-Sprachassistent bis zur Auslieferung?

Welche Sprachen unterstützt ihr?

Kann der Sprachassistent handeln?

Wo geht das Audio hin?

Könnt ihr eine physische Voice-Installation wie das Mutter Erde Telefon bauen?

Bau einen KI-Sprachassistent mit N3XTCODER

Erzähl uns vom Use Case und den Bedingungen. Wir antworten mit einer vorgeschlagenen Architektur und einem Termin, meist innerhalb eines Werktags.

Simon Stegemann
Co-Founder and CEO

Weitere Services

KI Chatbot

KI Chatbot. Ein intelligenter Kundensupport-Assistent, der Nutzer zu den richtigen Inhalten und Aktionen führt. Verbessere deine Kundenerfahrung mit automatisiertem 24/7-Support.

Weiter lesen

KI Discovery Lab

Optimiere deine Produkt-Vision mit KI, Machine Learning und Data Expertise.

Weiter lesen

KI Wissensassistent

KI Wissensassistent für dein Team. Ein maßgeschneiderter KI-Chatbot, der sich mit deinen Daten auskennt. Erhalte sekundenschnell erhellende Einsichten auf der Grundlage deiner Daten.

Weiter lesen

KI-Qualifizierung für Teams

Transformiere deine Belegschaft mit maßgeschneiderten KI-Schulungsprogrammen und Experten-Mentoring.

Weiter lesen

Open Innovation Programm - AI for Impact

Einsatz von KI für das Gemeinwohl. Wir stellen uns den Herausforderungen der realen Welt, indem wir das Potenzial von Datenwissenschaft und KI nutzen und wirkungsvolle Lösungen schaffen.

Weiter lesen