Leistungen

KI-Chatbot-Entwicklung für US- und EU-Unternehmen

Wir entwerfen und liefern LLM-gestützte Chatbots, die eine Eval-Bar bestehen — nicht nur eine Demo. GPT-4o, Claude 3.7 und Gemini 2.0 werden workload-spezifisch ausgewählt, RAG-Verankerung auf Pinecone oder pgvector, Slack/Teams/WhatsApp-Kanäle, Übergabe an Mitarbeiter über Intercom/Zendesk/Salesforce, und vollständige Langfuse-Observability. Jedes Projekt wird mit einem versionierten Golden-Set und Ragas-Regressionstests ausgeliefert, damit Halluzinationen ein nachverfolgter SLO sind, keine Sorge. Discovery + Flow-Design ab 9.000 EUR, MVP ab 32.000 EUR, Produktionssupport ab 8.500 EUR/Monat.

Die meisten Chatbots scheitern auf dieselben drei Arten: Sie halluzinieren selbstsicher bei Fragen außerhalb ihrer Wissensdatenbank, fangen Nutzer in Sackgassen-Loops ein statt an menschliche Mitarbeiter zu übergeben, und werden ohne Eval-Suite ausgeliefert, sodass niemand beweisen kann, dass Monat zwei besser als Monat eins ist. Wir bauen Chatbots um diese drei Fehlermuster herum. Jeder Gesprächsflow hat einen Ausweg zu einem menschlichen Mitarbeiter mit vollem Kontext. Jede sachliche Antwort ist in einem Abruf-Zitat verankert. Jede Version läuft gegen ein versioniertes Golden-Set mit Ragas-Treue- und Antwortrelevanz-Bewertung. Der Bot wird ausgeliefert, wenn die Zahlen es sagen, nicht wenn der Kalender es sagt.

Was wir in einem KI-Chatbot-Engagement liefern

Absichtsdesign & Gesprächsflows

Workshop mit Ihrem Support-, Vertriebs- oder Operations-Team zur Abbildung echter Nutzerabsichten aus Ticket- und Chat-Daten. Flow-Diagramme, Slot-Filling-Logik, Eskalationsregeln und ein schriftliches Gesprächsdesign-Dokument, bevor Code ausgeliefert wird.

LLM-gestützte NLU

GPT-4o, Claude 3.7 oder Gemini 2.0, workload-spezifisch auf Basis eines Seite-an-Seite-Evals anhand Ihrer echten Daten ausgewählt. Funktionsaufrufe für Tool-Einsatz, strukturierte Ausgaben für Ticket-Erstellung und Routing-Logik, die sicher fehlschlägt.

Wissensdatenbank / RAG-Verankerung

Ingestion-Pipeline für Dokumente, Help-Center-Artikel, Confluence, Notion, SharePoint und Zendesk-Makros. Pinecone- oder pgvector-Index mit Hybrid-Suche, Zitat-Rendering und konfidenzbasierter Ablehnung bei schwachem Abruf.

Kanal-Integrationen

Web-Widget, Slack, Microsoft Teams, WhatsApp Business über Twilio oder Meta Cloud API, SMS, Telegram und Sprache über Twilio oder LiveKit. Kanal-agnostische Gesprächs-Engine: gleiche Flows, gleicher RAG, gleiche Eval-Suite.

Übergabe an menschliche Mitarbeiter

Erstklassige Integration mit Intercom, Zendesk, Salesforce Service Cloud, Front, HubSpot. Die Übergabe enthält Protokoll, erkannte Absicht, Zitate und Konfidenzpunktzahl. Auslöser werden an Ihren CSAT- und AHT-Zielen kalibriert.

Analytics & kontinuierliche Verbesserung

Langfuse-Tracing bei jedem Gespräch, Helicone-Kosten-Dashboards, Posthog-Session-Replay, GA4-Funnels, wöchentliche Eval-Regressionsberichte und ein monatlicher Verbesserungs-Loop, bei dem Antworten mit geringer Konfidenz ins Golden-Set zurückfließen.

Eingesetzter Stack

GPT-4o Claude 3.7 Gemini 2.0 LangChain LlamaIndex Rasa Botpress Voiceflow Twilio Intercom Zendesk Slack API Teams API WhatsApp Business Salesforce Service Cloud Pinecone pgvector Helicone Posthog GA4 Ragas Langfuse

Ablauf eines KI-Chatbot-Engagements

  1. 01

    Discovery & Flow-Design

    Wochen 1–3: Ticket- und Chat-Daten auswerten, Absichts-Workshops mit Support/Operations durchführen, Gesprächsdesign-Dokument verfassen, LLM über Seite-an-Seite-Eval auswählen, Golden-Set v0 aufbauen. Go/No-Go vor dem MVP-Build.

  2. 02

    RAG & Kernflows

    Wochen 4–7: Ingestion-Pipeline, Vektor-Index, Hybrid-Retrieval, wichtigste Absichten mit Tool-Aufrufen verdrahtet, strukturierte Ausgaben, Zitat-Rendering. Ragas-Eval läuft bei jedem PR. Konfidenz-Schwellenwerte am Golden-Set kalibriert.

  3. 03

    Kanäle & Übergabe

    Wochen 8–9: Launch-Kanal (Web, Slack, Teams oder WhatsApp), Übergabe an Ihr Support-Tool mit vollem Kontext, Eskalations-Auslöser, Analytics-Dashboards, Runbooks für Vorfälle.

  4. 04

    Canary & Iteration

    Ab Woche 10: Canary-Rollout auf 10 Prozent, dann 50, dann 100. Wöchentliche Eval-Regressionsprüfung, monatliche Absichtserweiterung, vierteljährliches Modell-Upgrade-Ablation. Produktionssupport läuft als Retainer nach Wunsch.

Engagement-Modelle

Discovery + Flow-Design

Drei Wochen Festpreis. Ticket- und Chat-Daten-Audit, Absichts-Workshops, Gesprächsdesign-Dokument, LLM-Anbieter-Eval, Golden-Set v0 und ein schriftlicher MVP-Plan mit Kosten und Zeitplan. Auf MVP angerechnet, wenn Sie fortfahren. 9.000 EUR Festpreis.

Chatbot-MVP

8–10 Wochen. Produktions-Chatbot auf einem Kanal mit RAG-Verankerung, Übergabe an Ihr Support-Tool, Analytics-Dashboards, Monitoring und 30 Tage Support nach dem Launch. Eval-Bar vor Kickoff vereinbart. 32.000 EUR Festpreis.

Produktionssupport-Retainer

Kontinuierliches Flow-Tuning, Eval-Erweiterung, neue Absichten, zusätzliche Kanäle, Modell-Upgrades, Anbieterkosten-Optimierung, On-Call für Vorfälle. Ein Senior-Entwickler plus Eval-Support, sechs Monate Mindestlaufzeit. Ab 8.500 EUR/Monat.

Die Preisgestaltung schließt den LLM-API-Verbrauch aus — wir richten die Anbieter auf Ihren Konten ein, damit Sie den Kostenhebel und Zero-Retention-Vertragsbedingungen behalten.

Warum US- und EU-Teams YuSMP für die Chatbot-Entwicklung wählen

DSGVO-konform · ISO-27001-bereit · SOC 2 Type II in Vorbereitung · HIPAA-fähig · CCPA-berücksichtigt

Halluzination ist ein SLO

Treue, Antwortrelevanz und Kontextpräzision werden in Langfuse verfolgt und wöchentlich geprüft. Wenn eine Version das Golden-Set über den vereinbarten Schwellenwert hinaus verschlechtert, wird der Merge blockiert — nicht hinter einem Feature-Flag ausgeliefert.

Engineering, kein No-Code

Wir verwenden Voiceflow und Botpress wenn sie passen, aber die Gesprächs-Engine ist Code in Ihrem Repository. Kein Anbieter-Lock-in, keine überraschenden Gebühren pro Nachricht, keine “die Plattform ist ausgefallen”-Anrufe an einem Dienstagnachmittag.

Kostentransparenz

LLM-APIs laufen auf Ihren Anbieterkonten, Helicone zeigt Echtzeit-Ausgaben pro Absicht, und wir liefern monatlich Kostenoptimierungsempfehlungen: günstigere Modelle für hochvolumige Absichten, Prompt-Komprimierung, Prefix-Caching.

Für regulierte Workloads unterzeichnen wir HIPAA-BAAs, leiten an HIPAA-fähige LLM-Endpunkte weiter und integrieren mit Ihrer bestehenden Data-Governance und DLP — nicht parallel dazu.

Häufig gestellte Fragen

Sollten wir einen Chatbot auf GPT-4o, Claude 3.7 oder Gemini 2.0 aufbauen?

Das hängt vom Workload ab, nicht von der Markentreue. GPT-4o führt bei der Zuverlässigkeit von Tool-Aufrufen und der Einhaltung strukturierter Ausgaben bei geringer Latenz; wir verwenden es standardmäßig für Transaktions-Support-Bots, die APIs aufrufen. Claude 3.7 führt bei der Langkontext-Verankerung und der Kalibrierung von Ablehnungen; wir verwenden es standardmäßig für rechtliche, Compliance- und richtlinienintensive Assistenten. Gemini 2.0 führt bei den Kosten pro Token bei Frontier-Qualität für hochvolumige leseintensive Workloads. Jedes Engagement beginnt mit einem Seite-an-Seite-Eval anhand Ihrer echten Ticket-Daten, präsentiert als schriftlicher Vergleich mit Kosten-, p95-Latenz- und Ablehnungsraten-Zahlen, bevor wir uns entscheiden.

Wie stellen Sie sicher, dass der Chatbot keine Halluzinationen oder Falschantworten liefert?

Drei Ebenen. Erstens RAG-Verankerung: Jede sachliche Antwort zitiert eine Passage aus Ihrer Wissensdatenbank über Pinecone oder pgvector, und der LLM wird angewiesen abzulehnen, wenn die Abruf-Konfidenz unter einem eingestellten Schwellenwert liegt. Zweitens der Eval-Harness: ein Golden-Set von 300 bis 800 echten Fragen mit markierten richtigen Antworten, bei jeder Version mit Ragas (Treue, Antwortrelevanz, Kontextpräzision/Recall) plus regelbasiertem LLM-as-Judge bewertet. Drittens Monitoring in der Produktion: Langfuse verfolgt jedes Gespräch, markiert Antworten mit geringer Konfidenz zur menschlichen Überprüfung und speist sie zurück in das Golden-Set. Die Halluzinationsrate ist ein nachverfolgter SLO, kein Bauchgefühl.

Kann der Chatbot an einen menschlichen Mitarbeiter übergeben, wenn er nicht helfen kann?

Ja, und die Übergabe ist ein erstklassiger Teil des Designs, kein Nachgedanke. Wir integrieren mit Intercom, Zendesk, Salesforce Service Cloud, Front und HubSpot Service Hub über deren native APIs. Die Übergabe enthält das vollständige Gesprächsprotokoll, die erkannte Nutzerabsicht des Bots, Abruf-Zitate und eine Konfidenzpunktzahl, damit der menschliche Mitarbeiter den Kontext hat. Übergabe-Auslöser sind konfigurierbar: explizite Nutzeranfrage, geringe Konfidenz, sensible Absicht (Abrechnungsstreit, Rechtsangelegenheit, Beschwerde) oder nach N fehlgeschlagenen Klarstellungen. Wir passen den Schwellenwert an Ihre CSAT- und AHT-Ziele im ersten Monat an.

Welche Kanäle unterstützen Sie, und wie aufwendig ist die Mehrkanal-Bereitstellung?

Web-Chat-Widget (Vanilla JS oder React Drop-in), Slack, Microsoft Teams, WhatsApp Business über Twilio oder Meta Cloud API, SMS, Telegram, Intercom Messenger, Facebook Messenger und Sprache über Twilio Voice oder LiveKit. Die Gesprächs-Engine ist kanal-agnostisch: gleiche Flows, gleicher RAG-Index, gleiche Eval-Suite. Kanalspezifische Arbeit betrifft hauptsächlich Authentifizierung und Rich-Message-Rendering. Ein typischer zweiter Kanal fügt zwei bis drei Wochen hinzu; ein dritter eine Woche. WhatsApp Business dauert länger wegen der Meta-Template-Genehmigung, die Papierkram ist, keine Technik.

Was ist mit DSGVO, Datenresidenz und Gesprächsprotokollierung?

Das Engagement beginnt mit einem DSGVO-konformen DPA und einem Datenflussdiagramm, das jeden Ort zeigt, an dem eine Nutzernachricht landet. EU-Kunden laufen ausschließlich auf EU-Regionen (AWS eu-west-1, eu-central-1, GCP europe-west). PII-Redaktion (Presidio plus benutzerdefinierte Regeln) läuft, bevor ein Prompt den LLM-Anbieter erreicht. Gesprächsprotokolle werden gemäß Ihrer Richtlinie mit eingebautem Recht-auf-Löschung-Werkzeug aufbewahrt. Für Anthropic, OpenAI und Google verwenden wir Zero-Retention-API-Endpunkte, wo verfügbar. Wir sind DSGVO-konform, ISO-27001-bereit, SOC 2 Type II in Vorbereitung, HIPAA-fähig für HealthTech und CCPA-berücksichtigt für US-Konsumentenprodukte.

Was kostet ein typisches Chatbot-Projekt und wie lange dauert es?

Discovery und Flow-Design ist ein Festpreis von 9.000 EUR über drei Wochen: Absichten, Gesprächsflows, Wissensaudit, Eval-Golden-Set v0 und ein schriftlicher Lieferplan. Ein Produktions-MVP auf einem Kanal mit RAG, Übergabe und Analytics ist zum Festpreis 32.000 EUR über 8 bis 10 Wochen erhältlich. Produktionssupport und kontinuierliche Verbesserung (Eval-Erweiterung, Flow-Tuning, Modell-Upgrades, Anbieterkosten-Optimierung, On-Call) läuft ab 8.500 EUR/Monat mit einem Sechsmonat-Minimum. Die Preisgestaltung schließt den LLM-API-Verbrauch aus, der direkt auf Ihren Konten abgerechnet wird, damit Sie den Kostenhebel behalten.

Brauchen Sie einen Chatbot, der eine Eval-Bar besteht — nicht nur eine Demo?

Discovery-Call buchen