Leistungen

KI-Agenten-Entwicklung für Operations- und Produktteams in den USA und der EU

Produktionsreife KI-Agenten, entwickelt von Ingenieuren, die sie bereits ausgeliefert haben — nicht von Teams, die das Wort erst letztes Quartal gelernt haben. Wir ordnen Use Cases der Agent-vs-Pipeline-Entscheidung ehrlich zu, entwerfen Tool-Orchestrierung, die um 2 Uhr nachts standhält, bauen Memory-Ebenen, die Ihre OpenAI-Rechnung nicht in die Höhe treiben, und liefern Human-in-the-Loop-Checkpoints bei jeder irreversiblen Aktion. Observability und Kostenkontrolle sind von Tag eins verdrahtet. Machbarkeits-Sprints ab 9.500 EUR, funktionierende MVPs ab 40.000 EUR, Produktions-Retainer ab 16.000 EUR pro Monat.

Die meisten Agentenprojekte scheitern, weil das Problem keinen Agenten brauchte. Eine deterministische Pipeline plus ein LLM-Aufruf wäre in drei Wochen ausgeliefert worden und hätte zu einem Zehntel der Kosten betrieben werden können. Das sagen wir im Machbarkeits-Sprint klar. Wenn ein Agent tatsächlich benötigt wird — mehrstufige Workflows über veränderlichen Zustand, Tool-Sequenzen, die nicht fest kodiert werden können, verifizierbare Erfolgskriterien — bauen wir ihn so, dass er Produktion übersteht: explizite Graphen, validierte Tool-Aufrufe, harte Token-Budgets, abgestuftes Human-in-the-Loop und Observability, die jeden Schritt erfasst. Der Agent, der Ihre Rückerstattungswarteschlange verwaltet, darf nicht um 3 Uhr nachts 40 Mal in Ihre Stripe-Rechnung schlüpfen und das erst am Montag entdecken.

Was wir in einem KI-Agenten-Engagement liefern

Use-Case-Mapping für Agenten

Wir bewerten Kandidaten-Workflows nach den drei Agenten-Voraussetzungen — nicht-deterministischer Tool-Aufruf, sich entwickelnder Zustand, verifizierbare Erfolgskriterien — und nennen explizit die Fälle, bei denen eine Pipeline plus ein LLM-Aufruf schneller und günstiger liefern würde.

Tool-/Funktions-Orchestrierung

Tool-Definitionen mit strengen Pydantic-Schemata, Retry- und Backoff-Logik pro Tool, Idempotenz-Keys bei Schreiboperationen und ein expliziter Graph, der den Kontrollfluss debuggbar statt emergent macht. LangGraph, Temporal oder Inngest je nach Persistenz-Anforderungen.

Multi-Agenten-Architektur

Wenn der Workload tatsächlich von Spezial-Agenten profitiert (selten), entwerfen wir Supervisor- und Worker-Muster mit klaren Übergabe-Verträgen. Wenn nicht, sparen wir Ihnen die Komplexität und liefern ein Einzel-Agenten-System, das sich operativ führen lässt.

Memory & Zustand

Kurzzeit-Gesprächspuffer mit Zusammenfassung, Langzeit-episodisches Memory in pgvector oder Weaviate, semantisches RAG für das zugrundeliegende Korpus. Jede Ebene explizit dimensioniert, damit die Memory-Kosten bei 30 bis 60 Prozent der LLM-Kosten bleiben, nicht bei 300.

Human-in-the-Loop-Checkpoints

Abgestufte Genehmigungen: autonom für Lesevorgänge, asynchrones Rückgängigmachen für mittleres Risiko, synchrone Genehmigung für irreversible Aktionen (E-Mail, Produktion, Zahlungen). Genehmigungs-UIs sind Teil der Lieferung — interaktive Slack-Nachrichten, Ihre Administration oder ein benutzerdefinierter Eingang.

Observability & Kostenkontrolle

Token- und Geldbudgets pro Aufgabe am Orchestrator durchgesetzt. Schritt-Traces in Langfuse, Helicone oder Arize. Kostenalerts an PagerDuty, nicht an Dashboards, die Sie am Montag prüfen. Eval-Harness läuft in CI bei jeder Prompt-Änderung.

Eingesetzte Technologien

LangGraph CrewAI AutoGen LlamaIndex Agents OpenAI Assistants Anthropic Tool Use Vercel AI SDK Inngest Temporal Helicone Langfuse Arize Phoenix Posthog pgvector Weaviate Pydantic AI DSPy GPT-4o Claude 3.7 Sonnet Gemini 2.0

Ablauf eines KI-Agenten-Engagements

  1. 01

    Machbarkeit

    Wochen 1–2: Use-Case-Mapping, Agent-vs-Pipeline-Entscheidung, Tool-Inventar über Ihre bestehenden APIs, ROI-Modell. Ergebnis ist ein schriftliches Go/No-Go mit der günstigeren Alternative im Scope, wenn Go nicht zutrifft.

  2. 02

    Architektur

    Wochen 3–4: Orchestrator gewählt (LangGraph vs. Temporal vs. Inngest nach Persistenz), Tool-Schemata in Pydantic, Memory-Ebenen dimensioniert, Checkpoint-Ebenen pro Tool zugewiesen, ADRs verfasst.

  3. 03

    MVP-Build

    Wochen 5–9: Agent gebaut, Tool-Integrationen live, Human-in-the-Loop-UI ausgeliefert, Observability verdrahtet, Eval-Harness läuft in CI, Customer-Zero-Deployment hinter Feature-Flag mit harten Budget-Obergrenzen.

  4. 04

    Produktions-Rollout

    Ab Woche 10: schrittweise Traffic-Erhöhung, Kosten- und Latenz-SLOs, Runbook für festgefahrene Agenten und Tool-Ausfälle, Ihr Team geschult im Hinzufügen von Tools und Erweitern des Eval-Sets. Wir übergeben, sobald Ihr Team den Betrieb verantwortet.

Engagement-Modelle

Agenten-Machbarkeits-Sprint

Zwei Wochen. Use-Case-Mapping, Agent-vs-Pipeline-Entscheidung, Tool-Inventar, ROI-Modell, schriftlicher Architekturvorschlag. Optimal, wenn Sie noch nicht wissen, ob “Agent” das richtige Wort für Ihr Problem ist. 9.500 EUR Festpreis.

Agenten-MVP

7 bis 9 Wochen. Funktionierender Agent, Tool-Integrationen, Memory-Ebenen, Human-in-the-Loop-Checkpoints, Observability, Eval-Harness in CI, Customer-Zero-Deployment mit harten Budget-Obergrenzen. 40.000 EUR Festpreis.

Produktions-Agenten-Retainer

Monatlich. Prompt-Iteration, neue Tool-Integrationen, Eval-Erweiterung, Kostenoptimierung, On-Call für agenten-spezifische Vorfälle. Optimal nach dem MVP-Launch, wenn der Agent echte Workflows verantwortet. Ab 16.000 EUR/Monat.

Alle Engagements beginnen mit einem gegenseitigen NDA, IP-Abtretung und einem DPA. Drei Monate Mindestlaufzeit beim Produktions-Retainer, danach monatlich kündbar mit 30 Tagen Kündigungsfrist.

Warum US- und EU-Teams YuSMP für KI-Agenten wählen

DSGVO-konform · ISO-27001-bereit · SOC 2 Type II in Vorbereitung · HIPAA-fähig · CCPA-berücksichtigt

Ehrlich über Agenten-Eignung

Wir haben mehr Agentenprojekte gestoppt als ausgeliefert. Wenn eine Pipeline plus ein LLM-Aufruf bei Kosten und Zuverlässigkeit gewinnt, sagen wir das — auch wenn es unseren Scope verkleinert. Die MVPs, die wir liefern, überstehen Produktion.

Operations-Ingenieure, keine Prompter

Unsere Agenten-Leads haben dauerhafte Workflows auf Temporal und Inngest betrieben, bevor Agenten existierten. Sie wissen, wie ein verwaistes Task in einer Warteschlange um 3 Uhr nachts aussieht, und entwerfen Checkpoints entsprechend.

Kosten-erstorientiertes Design

Harte Token- und Geldbudgets am Orchestrator von Tag eins an. Memory-Ebenen dimensioniert, um Kosten vorhersagbar zu halten. Agenten, die sich selbst begrenzen, bevor sie Ihr Finanzteam begrenzen.

Wir behandeln Agenten als Produktionssysteme mit nicht-deterministischem Kontrollfluss — nicht als Chatbots, die zufällig APIs aufrufen. Der Unterschied in der Disziplin entscheidet darüber, ob ein Agent Ihre Rückerstattungswarteschlange betreibt oder Sie zu einem Montag-Morgen-Incident-Review zwingt.

Häufig gestellte Fragen

Wann braucht ein Problem einen Agenten statt eines einfachen LLM-Aufrufs?

Standardmäßig wird ein einzelner LLM-Aufruf bevorzugt. Ein Agent kommt nur dann zum Einsatz, wenn die Aufgabe drei Eigenschaften erfüllt: Sie erfordert mehrere Tool-Aufrufe in nicht vorab kodierbarer Reihenfolge, sie operiert über Zustand, der sich zwischen den Gesprächsrunden ändert, und das Erfolgskriterium ist gut genug verifizierbar, damit der Agent sich selbst korrigieren kann. Kundenservice-Triage ist selten ein Agent; Operations-Workflows, die vier interne APIs in wechselnder Reihenfolge aufrufen, oft schon. Wir lehnen Agentenprojekte ab, bei denen eine deterministische Pipeline plus ein LLM-Aufruf in der halben Zeit mit einem Viertel der Fehler ausgeliefert werden könnte.

Welches Orchestrierungs-Framework verwenden Sie?

Das hängt vom Workload ab. LangGraph für stateful Agenten mit verzweigtem Kontrollfluss und menschlichen Checkpoints — der explizite Graph ist seinen Aufwand wert, wenn man um 2 Uhr nachts debuggt. CrewAI oder AutoGen, wenn Multi-Agenten-Zusammenarbeit das eigentliche Muster ist (selten). OpenAI Assistants, wenn der Workload eng an OpenAIs Tool-Format gekoppelt ist und keine Portabilität benötigt wird. Temporal oder Inngest, wenn der Agent eigentlich ein dauerhafter Workflow mit LLM-Schritten ist. Vercel AI SDK für Next.js-Frontends mit einfachem Tool-Einsatz. Wir wählen nach operativer Eignung, nicht nach Hersteller-Präferenz.

Wie gehen Sie mit Agenten-Zuverlässigkeit und Kostenexplosionen um?

Drei Kontrollmechanismen. Harte Token- und Geldbudgets pro Aufgabe auf der Orchestrierungsebene — der Agent wird mit einer klaren Fehlermeldung beendet, bevor er 40 Mal in Ihre OpenAI-Rechnung schlüpft. Tool-Call-Validierung auf Schrittebene über Pydantic, damit ungültige Argumente vor dem API-Aufruf erkannt werden, nicht danach. Human-in-the-Loop-Checkpoints bei irreversiblen Aktionen (E-Mail senden, in Produktion veröffentlichen, Kartenzahlung auslösen). Observability über Langfuse, Helicone oder Arize protokolliert jeden Schritt, jeden Tool-Aufruf, jeden Token. Kostenalerts feuern am Orchestrator, nicht im Dashboard, das Sie am Montag prüfen.

Wie sieht Memory aus und ist es teuer?

Memory ist drei Dinge, nicht eines. Kurzzeit: der aktuelle Gesprächspuffer, zusammengefasst wenn er das Kontextbudget übersteigt. Langzeit-episodisch: Fakten, die der Agent über den Nutzer oder die Aufgabe gelernt hat, gespeichert in einem Vektorspeicher mit semantischem Recall (pgvector oder Weaviate). Langzeit-semantisch: das Korpus, aus dem der Agent abruft, als RAG-Subsystem behandelt. Wir dimensionieren jede Ebene explizit, da naives Vollstopfen des Kontextfensters fünf- bis zehnmal mehr pro Anfrage kostet und die Qualität verschlechtert. Die Memory-Kosten pro Agent betragen typischerweise 30 bis 60 Prozent der LLM-Kosten bei guter Planung; 300 Prozent ohne.

Wie halten Sie Menschen im Loop, ohne den Durchsatz zu blockieren?

Abgestufte Checkpoints. Stufe 1 (autonom): nur-lesende Aktionen, kein menschliches Gate. Stufe 2 (asynchrone Prüfung): Ein Mensch sieht die Aktion und kann sie innerhalb eines Zeitfensters rückgängig machen, aber der Agent blockiert nicht. Stufe 3 (synchrone Genehmigung): irreversible Aktionen (E-Mail senden, in Produktion veröffentlichen, Zahlung auslösen) warten auf menschliche Genehmigung vor der Ausführung. Die Genehmigungs-UI ist Teil der Lieferung, nicht ein Nachgedanke — üblicherweise eine interaktive Slack-Nachricht, eine Warteschlangenaction in Ihrer bestehenden Administration oder ein benutzerdefinierter Genehmigungseingang. Stufenzuweisung erfolgt pro Tool, schriftlich, und ändert sich durch PRs, nicht durch Slack.

Wie sieht die Preisgestaltung aus und wann skaliert sie?

Drei Stufen. Der Agenten-Machbarkeits-Sprint kostet 9.500 EUR über zwei Wochen: Use-Case-Mapping, Agent-vs-Pipeline-Entscheidung, Tool-Inventar, ROI-Modell und ein schriftlicher Architekturvorschlag. Das Agenten-MVP kostet 40.000 EUR über 7 bis 9 Wochen: funktionierender Agent, Tool-Integrationen, Memory, Human-in-the-Loop-Checkpoints, Observability und eine Customer-Zero-Deployment. Der Produktions-Agenten-Retainer beginnt bei 16.000 EUR pro Monat: Prompt-Iteration, neue Tool-Integrationen, Eval-Erweiterung, Kostenoptimierung und On-Call. Der typische Weg von Kickoff bis Produktion beträgt 10 bis 14 Wochen.

Haben Sie einen KI-Agenten-Use-Case? Lassen Sie uns gemeinsam prüfen, ob er wirklich einen braucht.

Discovery-Call buchen