Leistungen

Enterprise-RAG-Implementierungsleistungen für US- & EU-Unternehmen

Retrieval-Augmented Generation, das auf Messung basiert: hybrides BM25 plus Dense Retrieval, Reranking, das recall tatsächlich verbessert, Eval-Sets bewertet von Ihren Fachexperten und berechtigungsbewusste Indizes, die Mandanten- und ACL-Grenzen respektieren. Wir dimensionieren Vektorspeicher für 18 Monate Corpus-Wachstum, wählen Embeddings auf der Basis Ihrer Daten statt Anbieter-Präsentationen und liefern kein RAG, das keinen Regressions-Eval bestanden hat. Audits ab 8.500 EUR, funktionierende Piloten für bis zu 10.000 Dokumente ab 35.000 EUR, Produktions-Retainer ab 14.000 EUR/Monat.

Die meisten Enterprise-RAG-Systeme scheitern am selben Engpass: Retrieval. Das LLM ist in Ordnung. Der Prompt ist in Ordnung. Aber recall@5 liegt bei 40 Prozent, der Nutzer sieht nie den richtigen Chunk, und die Antwort ist plausibel falsch. Wir beginnen mit Corpus-Profiling und einem 200- bis 500-Fragen-Eval-Set, das von Ihren Experten bewertet wird — nicht nach Gefühl. Wir benchmarken Embeddings, Chunk-Größen und Retrieval-Strategien als Parameter, nicht als Meinungen. Hybrides Retrieval mit Reranking ist der Standard, weil Dense allein SKU- und Klauselnummer-Abfragen übersieht. Berechtigungsbewusstes Filtern wird zur Abfragezeit erzwungen, weil falsch konfiguriertes RAG die häufigste Ursache unbeabsichtigter Datenweitergabe ist. Ab Woche 8 verfügen Sie über ein RAG, das Sie einem Sicherheits-Review gegenüber vertreten können.

Was wir in einem RAG-Engagement liefern

Corpus-Ingestion & Chunking

Konnektoren für SharePoint, Confluence, Google Drive, S3, Slack, Notion und Datenbankextrakte. Rekursive Splitter, abgestimmt auf Ihre Dokumentverteilung — juristischer Fließtext, technische Dokumente mit Code, Transkripte — mit auf Ihrem Eval-Set kalibrierter Überlappung.

Embedding-Modellauswahl

Benchmark von OpenAI, Cohere multilingual und BAAI bge auf Ihrem Eval-Set. Wir wählen anhand von gemessenem recall@k und Kosten pro Million Tokens bei Ihrer Corpus-Größe — nicht anhand der Modell-Bestenliste vom letzten Quartal.

Vektorspeicher-Architektur

pgvector für unter einige Millionen Vektoren, wenn Ops-Einfachheit gewinnt; Qdrant oder Weaviate für Self-hosted at Scale; Pinecone für Managed; OpenSearch wenn hybride Suche bereits Ihr Backbone ist. Dimensioniert für 18 Monate Wachstum.

Hybrides Retrieval (BM25 + Dense)

Reciprocal Rank Fusion von BM25 und Dense Retrieval, damit Exact-Match-Abfragen (SKUs, Klauselnummern, Ticket-IDs) und Paraphrasen-Abfragen beide funktionieren. Auf Ihrem Eval-Set abgestimmt, nicht auf einem Standard-Mix.

Reranking & Relevanz-Evals

Cross-Encoder-Reranking mit Cohere Rerank 3 oder bge-reranker-v2-m3, hebt recall@5 um 15 bis 30 Prozent gegenüber Dense-only. Faithfulness- und Antwort-Relevanz-Rubrik laufen in CI bei jeder Prompt- oder Index-Änderung.

Berechtigungsbewusstes Retrieval

ACL-Metadaten bei der Ingestion angehängt, zur Abfragezeit erzwungen. Per-Mandant-Index-Isolierung für hochsensible Corpora. Explizit auditiert, weil falsch konfiguriertes RAG die häufigste Einzelursache unbeabsichtigter Datenweitergabe ist.

Werkzeuge, die wir einsetzen

OpenAI Embeddings Cohere Rerank BAAI bge Pinecone Weaviate Qdrant pgvector Elasticsearch OpenSearch LangChain LlamaIndex Haystack Ragas TruLens Phoenix LangSmith Unstructured.io LlamaParse GPT-4o Claude 3.7 Gemini 1.5

Wie ein RAG-Implementierungs-Engagement abläuft

  1. 01

    Audit & Eval-Design

    Wochen 1–2: Corpus-Profil, Ist-Zustand-Bewertung, 200- bis 500-Fragen-Eval-Set mit Ihren Fachexperten, schriftliche Architekturempfehlung mit ADRs.

  2. 02

    Ingestion & Indexierung

    Wochen 3–4: Konnektoren, Chunking-Strategie, Embedding-Benchmark, Vektorspeicher aufgebaut, ACL-Metadaten gemappt, initialer Index erstellt und befüllt.

  3. 03

    Retrieval & Reranking

    Wochen 5–7: hybrides Retrieval abgestimmt, Reranking integriert, Generation-Prompt in Git versioniert, Eval-Harness läuft in CI, Customer-Zero-Deployment hinter einem Flag.

  4. 04

    Produktions-Rollout

    Woche 8+: Observability live (Phoenix, TruLens, LangSmith), Berechtigungs-Audit abgenommen, Runbook geschrieben, Ihr Team für das Hinzufügen von Corpora und die Erweiterung des Eval-Sets geschult.

Zusammenarbeitsmodelle

RAG-Audit

Zwei Wochen. Corpus-Profil, Eval-Set-Design, Ist-Zustand-Bewertung falls Sie bereits ein RAG haben, Architekturempfehlung mit ADRs. Optimal, wenn Sie noch nicht wissen, ob Ihr RAG defekt ist oder der Prompt. 8.500 EUR pauschal.

RAG-Pilot (10.000 Dokumente)

6 bis 8 Wochen für bis zu 10.000 Dokumente. Ingestion-Pipeline, Vektorspeicher, hybrides Retrieval, Reranking, Eval-Harness in CI, ACL-Durchsetzung, Customer-Zero-Deployment. 35.000 EUR pauschal.

Produktions-RAG-Retainer

Monatlich. Corpus-Erweiterung, Embedding-Upgrades, Eval-Wachstum, Retrieval-Tuning, On-Call für RAG-spezifische Vorfälle. Optimal, nachdem der Pilot ausgeliefert wurde und der Corpus noch wächst. Ab 14.000 EUR/Monat.

Alle Engagements beginnen mit einem gegenseitigen NDA, IP-Abtretung und einem Auftragsverarbeitungsvertrag. Dreimonatige Mindestlaufzeit für den Produktions-Retainer, danach monatlich kündbar mit 30 Tagen Frist.

Warum US- & EU-Teams YuSMP für Enterprise-RAG wählen

DSGVO-konform · ISO-27001-bereit · SOC 2 Type II in Vorbereitung · HIPAA-fähig · CCPA-berücksichtigt

Gemessen, nicht angenommen

Jede Chunk-Größe, jedes Embedding, jeder Retrieval-Mix wird anhand von recall@k auf Ihrem Eval-Set ausgewählt. Keine aus einem Blog-Beitrag importierten Best Practices. Wir können Ihnen die Zahlen hinter jeder Entscheidung zeigen.

Standardmäßig berechtigungsbewusst

ACL-Durchsetzung zur Abfragezeit ist von Woche eins an eingebaut, nicht beim Sicherheits-Review nachträglich aufgesetzt. Wir auditieren dies explizit, weil falsch konfiguriertes RAG der häufigste GenAI-Sicherheitsvorfall ist.

Operativ, nicht akademisch

Unsere RAG-Experten haben Search-Relevance- und Embedding-Pipelines betrieben, bevor LLMs die Antwort waren. Sie diskutieren über recall@5 und Reranker-Latenz, nicht darüber, welches Paper letzte Woche erschienen ist.

Wir behandeln RAG als Suchsystem mit einem Generierungsschritt obendrauf — nicht umgekehrt. Im Retrieval liegt der Wert, und dort verbergen sich die Fehler.

Häufig gestellte Fragen

Wie wählen Sie Chunk-Größe und Chunking-Strategie?

Chunking ist empirisch, nicht theoretisch. Wir erstellen zuerst ein Profil Ihres Corpus: mediane Dokumentlänge, Absatzverteilung, Abschnittsstruktur, Tabellendichte, Code-Block-Präsenz. Für dichten Fließtext (Rechtliches, Richtlinien) beginnen wir typischerweise bei 400 bis 600 Tokens mit 15% Überlappung; für technische Dokumente mit Code wechseln wir zu rekursiven Splitttern, die Code-Block- und Überschriftsgrenzen respektieren; für Transkripte chunken wir nach Sprecherwechseln plus Token-Obergrenze. Dann führen wir ein Retrieval-Eval über drei Chunk-Größen durch und wählen die, die recall@10 auf dem tatsächlichen Eval-Set maximiert. Keine Faustregel schlägt Messung auf Ihren Daten.

Welches Embedding-Modell und welchen Vektorspeicher sollten wir verwenden?

Embeddings: Wir benchmarken OpenAI text-embedding-3-large, Cohere embed-multilingual-v3 und BAAI bge-large auf Ihrem Eval-Set; der Gewinner hängt von Sprachmix und Domäne ab. Vektorspeicher: pgvector, wenn Sie bereits Postgres haben und der Corpus unter einigen Millionen Vektoren liegt (operationelle Einfachheit gewinnt); Qdrant oder Weaviate für Self-hosted at Scale mit Metadaten-Filterung; Pinecone, wenn das Ops-Budget knapp ist und Sie Managed wollen; OpenSearch, wenn hybrides BM25 plus Dense bereits Ihr Such-Backbone ist. Wir dimensionieren den Index für 18 Monate Corpus-Wachstum, nicht den heutigen Snapshot.

Führen Sie hybrides Retrieval und Reranking durch?

Fast immer. Reines Dense-Retrieval übersieht Exact-Match-Abfragen (Produkt-SKUs, Vertragsklauselnummern, Ticket-IDs); reines BM25 übersieht Paraphrasen. Wir kombinieren BM25 und Dense mit Reciprocal Rank Fusion, dann reranken wir die Top 50 mit einem Cross-Encoder (Cohere Rerank 3 oder bge-reranker-v2-m3) auf die Top 5 bis 10, die in den Prompt eingehen. Reranking hebt recall@5 typischerweise um 15 bis 30 Prozent gegenüber Dense-only auf Enterprise-Corpora — wir messen es auf Ihrem Eval-Set, bevor wir es für die Produktion empfehlen.

Wie evaluieren Sie RAG-Qualität und verhindern Regressionen?

Drei Eval-Schichten. Retrieval: recall@k, MRR und ein relevanzbewertendes Gutachten auf einem 200- bis 500-Fragen-Eval-Set, das mit Ihren Fachexperten aufgebaut wurde. Generierung: Faithfulness (Ragas) plus ein Antwort-Relevanz-Rubrik, um Halluzinationen und Themen-Drift zu erkennen. End-to-End: eine menschlich bewertete Stichprobe von 50 bis 100 produktionsähnlichen Abfragen jede Woche im Pilot. Alle drei laufen in CI bei jeder Prompt- oder Index-Änderung. Jede Tier-1-Regression blockiert den Merge. Produktions-Observability durch Phoenix, TruLens oder LangSmith protokolliert jedes Retrieval und jede Generierung für Offline-Analyse.

Können Sie berechtigungsbewusstes Retrieval für Enterprise-Corpora einrichten?

Ja, und das ist die häufigste Anforderung, die wir sehen. Berechtigungsbewusstes Retrieval erzwingt ACLs zur Abfragezeit, nicht zur Index-Zeit. Wir fügen Zugangsmetadaten (Benutzer-IDs, Gruppen-IDs, Mandanten-IDs, Vertraulichkeitslabels) bei der Ingestion an jeden Chunk an, filtern dann die Vektorsuche nach den effektiven Berechtigungen des anfragenden Benutzers vor dem Reranking. Für hochsensible Corpora fügen wir per-Mandant-Index-Isolierung hinzu. SharePoint-, Confluence-, Google-Drive- und Slack-Konnektoren unterstützen dies, wenn korrekt konfiguriert — falsch konfiguriertes RAG ist eine häufige Ursache unbeabsichtigter Datenweitergabe, weshalb wir dies explizit auditieren.

Wie sehen die Preise aus, und wie lange bis zur Produktion?

Drei Stufen. RAG-Audit: 8.500 EUR über zwei Wochen: Corpus-Profil, Ist-Zustand-Bewertung falls Sie bereits ein RAG haben, Architekturempfehlung und Eval-Set-Design. RAG-Pilot: 35.000 EUR über 6 bis 8 Wochen für bis zu 10.000 Dokumente: Ingestion-Pipeline, Vektorspeicher, hybrides Retrieval, Reranking, Eval-Harness und eine Customer-Zero-Deployment. Production-RAG-Retainer: ab 14.000 EUR/Monat für Corpus-Erweiterung, Embedding-Upgrades, Eval-Wachstum und On-Call. Typischer Weg vom Kickoff zu produktionsreifem RAG: 8 bis 12 Wochen.

Liefert Ihr RAG die falschen Chunks? Lassen Sie uns das Retrieval auf einem echten Eval-Set prüfen.

Discovery-Call buchen