Leistungen

Generative-KI-Integrationsleistungen für US- & EU-Softwareteams

Generative-KI-Beratung für B2B-Betreiber, die ausgelieferte Systeme brauchen — keine Foliendecks. Wir bewerten Use Cases nach Umsatzimpact, wählen das richtige LLM pro Aufgabe auf einem echten Eval-Harness, bauen RAG- und Prompt-Pipelines, die echte Nutzer überstehen, und liefern MLOps, das Ihr Team besitzen kann. Senior-Entwickler mit Erfahrung in produktiven LLM-Workloads im großen Maßstab — keine Prompt-Ingenieure, die Twitter lesen. Discovery-Sprints ab 12.000 EUR, funktionierende Piloten ab 45.000 EUR, Produktionsretainer ab 18.000 EUR/Monat.

Die meisten generativen KI-Projekte scheitern aus denselben drei Gründen. Der falsche Use Case — ein Chatbot, der eine Suchleiste ersetzt, die niemand genutzt hat. Das falsche Eval — „sieht gut aus bei fünf Beispielen" bis Produktionsnutzer das sechste finden. Die falsche Architektur — ein 14-Schritte-LangChain-Agent, wo zwei Funktionsaufrufe ausgereicht hätten. Wir beginnen mit einem schriftlichen ROI-Modell und einem 200-Item-Eval-Set, bevor eine einzige Zeile Orchestrierungscode geschrieben wird. Wir wählen LLM-Anbieter nach gemessener Latenz, Qualität und Kosten pro 1.000 Anfragen bei Ihrem Traffic-Mix — nicht nach dem Demo, das letzte Woche viral ging. Nach Woche 10 verfügen Sie über ein funktionsfähiges System, einen Regressions-Harness, Observability und ein Runbook, das Ihr Team besitzt. Sehen Sie es in der Praxis in unserer ARIA-Fallstudie.

Was wir in einem KI-Engagement liefern

Use-Case-Discovery & ROI-Bewertung

Wir befragen Produkt-, Operations- und Support-Teams und bewerten dann 8 bis 15 Kandidaten-Use-Cases nach Umsatzimpact, Entwicklungskosten, Machbarkeit und Risiko. Sie erhalten eine priorisierte Shortlist, ein schriftliches ROI-Modell für die Top-3 und eine klare „nicht bauen"-Liste mit Begründung.

LLM-Anbieterauswahl

Eval-gestützte Auswahl über OpenAI, Anthropic, Bedrock und Vertex. Wir messen Qualität, p50/p95-Latenz und Kosten an einem 150 bis 400-Item aufgabenspezifischen Eval-Set. Ergebnis ist ein ADR mit dem gewählten Modell, einem Fallback-Modell und dem Auslöser für eine Neubewertung.

RAG & Datenpipelines

Corpus-Ingestion, Chunking-Strategie kalibriert auf Ihre Dokumentverteilung, Embedding-Modellauswahl, Vector-Store-Dimensionierung, Hybrid-Retrieval. Wir dimensionieren für Ihre tatsächliche Corpus-Wachstumsrate, nicht für eine Standard-100.000-Vektor-Demo.

Prompt Engineering & Evals

Versionierte Prompts in Git, Regressions-Eval-Sets in CI, Ragas- und DeepEval-Rubriken, LLM-as-Judge mit menschlicher Stichprobenprüfung. Wir mergen keine Prompt-Änderungen, die eine Tier-1-Metrik verschlechtern — auch unsere eigenen nicht.

Sicherheit & Umgang mit personenbezogenen Daten

PII-Entfernung beim Eingang (Presidio oder Fine-Tuned-Klassifikator), Zero-Retention-Anbieterverträge, EU-Endpoints für EU-Daten, Egress-Scans auf halluzinierte PII. DPAs und Sub-Prozessor-Listen abgestimmt auf Ihre Kundenverträge.

MLOps für LLMs

Observability über LangSmith, Langfuse oder Helicone. Anfragebezogene Protokollierung von Prompt-Version, Modell, Tokens, Latenz, Kosten. Kostenalarme, Latenz-SLOs, automatisierte A/B-Prompts und ein schriftliches Runbook für Modell-Upgrades und Anbieterausfälle.

Verwendete Werkzeuge

OpenAI Anthropic Bedrock Vertex AI LangChain LlamaIndex Pinecone Weaviate Qdrant Chroma OpenSearch pgvector Ragas DeepEval LangSmith Helicone Phoenix MLflow vLLM Ollama Guardrails Pydantic

Wie ein Generative-KI-Engagement abläuft

  1. 01

    Discovery

    Wochen 1–3: Stakeholder-Interviews, Use-Case-Bewertung, ROI-Modell, Eval-Set-Design. Ergebnis ist eine priorisierte Shortlist plus ein Architekturvorschlag, den Gründer und Board lesen können.

  2. 02

    Anbieter-Eval

    Wochen 4–5: Eval-Harness aufbauen, Kandidatenmodelle am aufgabenspezifischen Set testen, ADR mit gewähltem Modell, Fallback-Modell und Neubewertungsauslöser schreiben. Prompts in Git eingecheckt.

  3. 03

    Pilotentwicklung

    Wochen 6–10: End-to-End-System, RAG oder Agent-Orchestrierung, Observability, PII-Handling, Customer-Zero-Deployment hinter einem Feature-Flag. Regressions-Evals laufen in CI vor jedem Prompt-Merge.

  4. 04

    Produktionsrollout

    Ab Woche 11: Eval-Set erweitern, Fallbacks hinzufügen, Ihr Team im Runbook schulen, Kosten- und Latenz-SLOs festlegen, erstes vierteljährliches Modell-Upgrade-Review durchführen. Wir ziehen uns zurück, wenn Ihr Team es eigenständig betreibt.

Engagement-Modelle

Discovery-Sprint

Drei Wochen. Use-Case-Bewertung, ROI-Modell, Anbieter-Eval-Design, Architekturvorschlag, schriftliche ADRs. Am besten für Teams, die noch nicht wissen, welche KI-Wette es wert ist. 12.000 EUR Festpreis.

KI-Pilot

8 bis 10 Wochen. Funktionsfähiges End-to-End-System, Eval-Harness in CI, Observability, PII-Pipeline und Customer-Zero-Deployment. Wissenstransfer an Ihre Entwickler im Zeitplan eingebaut. 45.000 EUR Festpreis.

Produktionsretainer

Monatlich. Prompt-Iteration, Modell-Upgrades, Eval-Erweiterung, Kostenoptimierung, On-Call für LLM-spezifische Vorfälle. Am besten nach dem Pilotenstart, wenn Sie laufende Senior-Abdeckung benötigen. Ab 18.000 EUR/Monat.

Alle Engagements beginnen mit einem gegenseitigen NDA, IP-Abtretung und einem DPA. Mindestlaufzeit drei Monate für den Produktionsretainer, danach monatlich kündbar mit 30 Tagen Vorlauf.

Warum US- & EU-Teams YuSMP für Generative-KI-Arbeit wählen

DSGVO-konform · ISO-27001-bereit · SOC 2 Type II in Vorbereitung · HIPAA-fähig · CCPA-berücksichtigt

Eval-first, nicht Demo-first

Jedes Engagement beginnt mit einem 150 bis 400-Item-Eval-Set vor der Architekturentscheidung. Wir liefern keine Prompts, die noch keinen Regressionslauf gesehen haben. Demos sind kein Nachweis.

Senior-Entwickler, keine Prompt-Schreiber

Unsere LLM-Leads haben produktives ML ausgeliefert, bevor Transformer en vogue waren — Ranking, Klassifikation, Suchrelevanz. Sie diskutieren über Latenzbudgets und Postgres-Abfragepläne, nicht über Twitter-Threads.

Compliance-erfahren

DSGVO, SOC 2, HIPAA, CCPA — wir haben Zero-Retention-Verträge mit OpenAI und Anthropic verhandelt, DPAs geschrieben, die Kundenprüfungen standhalten, und Auditoren durch den LLM-Scope geführt.

Wir betrachten die LLM-Anbieterauswahl als vierteljährliche Entscheidung, nicht als Glaubenssache. Wenn sich die Frontier bewegt, sagen es uns Ihre Evals — nicht der Quartalsbericht eines Anbieters.

Häufig gestellte Fragen

Wie wählen Sie den richtigen LLM-Anbieter für unseren Workload?

Die Anbieterauswahl ist ein Eval-Problem, kein Marketing-Problem. Wir bauen ein aufgabenspezifisches Eval-Set mit 150 bis 400 repräsentativen Inputs und bewerten Kandidatenmodelle nach Qualität (LLM-as-Judge plus menschliche Stichprobenprüfung), Latenz und Kosten pro 1.000 Anfragen. Typisches Lineup: GPT-4o oder Claude 3.7 Sonnet für Reasoning, GPT-4o-mini oder Claude 3.5 Haiku für Klassifikation, gpt-4o-realtime für Voice, ein Open-Weights-Modell auf vLLM für kostenintensive Batch-Verarbeitung. Wir führen das Eval jedes Quartal erneut durch, weil sich die Frontier bewegt.

Wann ist RAG die richtige Antwort und wann nicht?

RAG ist richtig, wenn Antworten in einem Corpus liegen, der sich schneller aktualisiert als Fine-Tuning möglich ist (Richtlinien, Produktdokumentation, Tickets, Verträge). Es ist die falsche Antwort, wenn das Modell die Domäne bereits kennt, wenn die Latenz unter 500 ms p95 liegt oder wenn Sie deterministische Outputs benötigen. Wir kombinieren häufig: RAG für Verankerung, ein kleines Fine-Tuned-Modell für Output-Struktur, Prompt Engineering für Orchestrierung. Reines RAG ist in der Produktion selten. Reines Fine-Tuning noch seltener.

Wie handhaben Sie personenbezogene Daten, DSGVO und Kundendaten?

Drei Schichten. Beim Eingang erkennt ein PII-Detektor (Microsoft Presidio oder ein Fine-Tuned-Klassifikator) personenbezogene Daten und entfernt oder tokenisiert diese, bevor der Prompt unsere Infrastruktur verlässt. Beim Anbieter schließen wir Zero-Data-Retention-Verträge ab und bevorzugen EU-gehostete Endpoints für EU-Daten. Beim Ausgang wird der Output auf halluzinierte personenbezogene Daten geprüft. DPAs werden vor Projektstart unterzeichnet.

Wie sieht Prompt-Versionierung und Evaluation in der Produktion aus?

Prompts sind Code. Sie leben in der Versionskontrolle, werden in Pull Requests geprüft und mit semantischen Versionen getaggt, die bei jeder Inferenz protokolliert werden. Jede Prompt-Änderung wird in CI gegen ein Regressions-Eval-Set geprüft, und wir mergen nicht, wenn eine Tier-1-Metrik um mehr als 2 Prozent zurückgeht. In der Produktion protokollieren wir Prompt-Version, Modell, Latenz und Token-Kosten pro Anfrage über LangSmith, Helicone oder Langfuse.

Können Sie das in unseren bestehenden Stack und unser Team integrieren?

Ja. Die meisten Engagements integrieren sich in ein bestehendes Backend (Node, Python, Go, Java) und bestehende Infrastruktur (AWS, GCP, Azure). Wir drängen Sie nicht zu einem anbieterspezifischen Orchestrator. Wir arbeiten paarweise mit Ihren Entwicklern und schreiben ADRs für Architekturentscheidungen. Wissenstransfer ist vertraglich vereinbart: Am Ende des Piloten besitzt Ihr Team die Codebasis, die Evals und das Runbook.

Wie sehen die Preise aus und wie lange dauert der Weg in die Produktion?

Drei Stufen. Discovery-Sprint für 12.000 EUR über drei Wochen: Use-Case-Bewertung, ROI-Modell, Anbieter-Eval und schriftlicher Architekturvorschlag. KI-Pilot für 45.000 EUR über 8 bis 10 Wochen: funktionsfähiges End-to-End-System, Eval-Harness, Observability und Customer-Zero-Deployment. Produktionsretainer ab 18.000 EUR/Monat für Prompt-Iteration, Modell-Upgrades, Eval-Erweiterung und On-Call. Typischer Weg von Projektstart bis umsatzrelevanter Produktion: 12 bis 16 Wochen.

Haben Sie einen KI-Use-Case, der es wert ist ausgeliefert zu werden? Lassen Sie uns ihn gemeinsam bewerten.

Discovery-Call buchen