Leistungen

LLM Fine-Tuning und MLOps für US- & EU-KI-Teams

Wir tunen große Sprachmodelle für Produktteams, die über Prompt-Engineering und RAG hinausgewachsen sind. SFT, DPO, ORPO, LoRA und QLoRA auf Llama 3.3, Qwen 2.5, Mistral, Phi-4 sowie OpenAI/Anthropic Custom Models. Jedes Engagement umfasst ein versioniertes Eval-Harness, vLLM- oder TGI-Inferenz mit INT4/INT8-Quantisierung und einen MLOps-Loop, der Regressionen erkennt, bevor Nutzer es tun. Pilotprojekte laufen 8–12 Wochen. Machbarkeitsanalyse ab 7.500 EUR, vollständiges Pilotprojekt ab 38.000 EUR, MLOps-Retainer ab 15.000 EUR/Monat.

Die meisten KI-Teams sollten kein Fine-Tuning durchführen. Prompt-Engineering, strukturierte Ausgaben und Retrieval-Augmented Generation lösen 80 Prozent der Produktionsfälle zu Frontier-API-Kosten. Die verbleibenden 20 Prozent sind der Bereich, in dem Fine-Tuning seinen Wert beweist — Verhaltensänderungen, die kein Prompt erzwingen kann, Struktur-Ausgabetreue über 99 Prozent, Latenz unter 400 ms bei p95 oder eine Inferenzkostenkurve, die im großen Maßstab bricht. Wir helfen Teams herauszufinden, auf welcher Seite dieser Linie sie stehen, und liefern dann das kleinste Modell, das die Eval-Messlatte erfüllt. Engagements beginnen mit einem schriftlichen Machbarkeitsmemo und einem versionierten Eval-Harness; nichts wird trainiert, bevor beides schriftlich vereinbart ist.

Was wir in einem LLM-Fine-Tuning-Engagement liefern

Datenkuration & Annotierungs-Pipelines

Golden-Set-Erstellung, Annotierungsrubriken, Inter-Annotator-Agreement-Tracking, PII-Redaktion mit Presidio, synthetische Datengenerierung mit Frontier-Modellen und Deduplizierung. Die Annotierungs-Pipeline liegt in Ihrer Cloud, nicht in unserer.

SFT, DPO, ORPO Fine-Tuning

Supervised Fine-Tuning für Verhaltensänderungen, DPO und ORPO für Präferenz-Alignment ohne separates Reward-Modell sowie KTO, wenn Präferenzdaten asymmetrisch sind. TRL, Unsloth und Axolotl auf Ihren Cloud-GPUs oder unseren.

LoRA / QLoRA Kostenoptimierung

Parametereffizientes Fine-Tuning reduziert den GPU-Speicherbedarf um 60–80 Prozent und ermöglicht die Iteration von Ablations auf einem einzelnen A100. Wir setzen standardmäßig QLoRA 4-bit für die erste Phase ein, volles Fine-Tuning nur, wenn Ablations den Nutzen belegen.

Eval-Harness & Regressionstests

Versioniertes Golden Set, LLM-as-Judge mit Rubrik-Bewertung (Ragas, eigene), Aufgaben-Metriken (F1, BLEU, ROUGE, Exact Match), adversarielle Probes auf Halluzination, Jailbreak, PII-Leakage. CI blockiert jeden Merge, der die Messlatte unterschreitet.

MLOps & kontinuierliches Training

Trainingsdaten-Versionierung mit DVC oder LakeFS, Experiment-Tracking auf Weights & Biases oder MLflow, geplantes Retraining durch Drift-Metriken ausgelöst sowie Rollback-Runbooks. Alles reproduzierbar, alles in Ihrem Repository.

Inferenz-Serving & Quantisierung

vLLM, TGI oder TensorRT-LLM mit Continuous Batching, INT8/INT4-Quantisierung (AWQ, GPTQ, FP8), Speculative Decoding und Prefix Caching. Last-getestet bei Ihrem realen p95-Traffic vor dem Cutover, mit Monitoring-Dashboards.

Unser eingesetzter Stack

PyTorch Hugging Face PEFT LoRA QLoRA DPO ORPO TRL Unsloth Axolotl vLLM TGI TensorRT-LLM Llama 3.3 Qwen 2.5 Mistral Phi-4 Modal Replicate RunPod MLflow Weights & Biases Ragas

Ablauf eines LLM-Fine-Tuning-Engagements

  1. 01

    Machbarkeit

    Woche 1–2: Schriftliches Memo, das beantwortet, ob Fine-Tuning das richtige Werkzeug ist, welches Basis-Modell zur Aufgabe passt, welchen Eval-Gewinn gegenüber RAG/Prompt-Baseline zu erwarten ist und wie die Gesamtkosten über 12 Monate aussehen. Go/No-Go vor jeglichen GPU-Ausgaben.

  2. 02

    Daten & Eval

    Wochen 3–5: Golden Set mit 200–1.000 annotierten Beispielen, Annotierungsrubrik, PII-Redaktions-Pipeline, Eval-Harness an W&B mit Frontier-Baselines gekoppelt. Kein Training, bevor die Eval-Suite gegen die Baseline grün läuft.

  3. 03

    Training & Ablations

    Wochen 6–8: SFT, dann DPO oder ORPO, wenn Präferenzdaten vorhanden. LoRA/QLoRA zuerst, Ablations zu Rank, Lernrate und Basis-Modell. Jeder Lauf ist aus der Konfigurationsdatei in Ihrem Repository reproduzierbar.

  4. 04

    Serving & Übergabe

    Wochen 9–12: vLLM/TGI-Deployment, Quantisierung, Lasttests bei p95-Traffic, Canary-Rollout mit Rollback-Runbook, Monitoring-Dashboards und Entwicklerübergabe. Optionaler MLOps-Retainer für kontinuierliches Training.

Engagement-Modelle

Fine-Tune-Machbarkeit

Zweiwöchiges schriftliches Memo: Basis-Modell-Empfehlung, erwarteter Eval-Gewinn gegenüber RAG/Prompt-Baseline, GPU-Kostenhochrechnung, Gesamtbetriebskosten über 12 Monate, Go/No-Go-Entscheidung. Wird auf das Pilotprojekt angerechnet, wenn Sie fortfahren. 7.500 EUR Festpreis.

Pilot Fine-Tune

8–12 Wochen. Ein Produktionsmodell, vollständiges Eval-Harness, vLLM/TGI-Inferenz-Deployment in Ihrer Cloud, lastgetesteter Rollout, Monitoring-Dashboards und Entwicklerübergabe. Inklusive 30 Tage Post-Launch-Support. 38.000 EUR Festpreis.

MLOps-Retainer

Kontinuierliches Training, Eval-Erweiterung, Drift-Erkennung, monatliche Modellaktualisierung, Anbieter-Kostenoptimierung, On-Call für Inferenz-Vorfälle. Ein Senior MLE plus Eval-Support, mindestens sechs Monate. Ab 15.000 EUR/Monat.

Alle Preise verstehen sich ohne GPU-Compute-Kosten — wir arbeiten in Ihrem Cloud-Account, und Sie zahlen AWS/GCP/Azure direkt. Typische GPU-Ausgaben im Pilotprojekt: 2.500–8.000 EUR.

Warum US- & EU-KI-Teams YuSMP für Fine-Tuning wählen

DSGVO-konform · ISO-27001-bereit · SOC 2 Type II in Vorbereitung · HIPAA-fähig · CCPA-berücksichtigt

Eval zuerst, nicht Bauchgefühl

Kein Trainingslauf beginnt, bevor das Eval-Harness gegen Ihre Frontier-Baseline grün läuft. Jedes Release wird mit einem Regressionsbericht ausgeliefert. Unterschreitet die Eval-Messlatte den Schwellenwert, wird der Merge blockiert — nicht verhandelt.

Senior MLEs, keine Prompt-Ingenieure

Die MLEs in Ihrem Engagement haben fine-getunete Modelle in der Produktion ausgeliefert. Sie wissen, welchen LoRA-Rank man wählt, warum Ihr DPO-Loss divergiert und wie man einen vLLM-Durchsatz-Cliff debuggt — ohne Twitter-Thread.

Ihre Cloud, Ihre Gewichte

Training läuft in Ihrer VPC, Gewichte verbleiben in Ihrem S3/GCS, Code liegt in Ihrem Repository. Wir arbeiten via assumed IAM Roles. Keine Daten landen jemals auf unseren Laptops, und Sie besitzen das resultierende Modell ab Tag eins.

Für regulierte Workloads unterzeichnen wir HIPAA BAAs, betreiben ausschließlich in HIPAA-fähigen Regionen und integrieren uns in Ihre bestehende Daten-Governance — nicht parallel dazu.

Häufig gestellte Fragen

Wann sollten wir ein LLM fine-tunen statt ein Frontier-Modell mit Prompt-Engineering oder RAG zu verwenden?

Drei Signale rechtfertigen Fine-Tuning. Erstens Latenz oder Kosten: Ein fine-getuntes 7B-Modell auf vLLM kostet bei p95-Latenz unter 400 ms etwa ein Vierzigstel von GPT-4o für dieselbe Aufgabe. Zweitens Verhalten, das sich nicht erpromten lässt: domänenspezifischer Stil, strukturierte Ausgabetreue über 99 %, oder Ablehnungsmuster, die Frontier-Safety-Schichten nicht erlauben. Drittens Datenhebel: Sie verfügen über 5.000+ hochwertige, annotierte Paare, die niemand sonst hat. Wenn es hauptsächlich um Wissensabruf geht, beginnen Sie mit RAG. Wenn es um gelegentliche Formatierung geht, beginnen Sie mit Prompt-Engineering. Fine-Tuning ist die richtige Entscheidung, wenn Sie Verhaltensänderungen im großen Maßstab benötigen.

Tunen Sie Frontier-Modelle wie GPT-4 oder nur Open-Source-Modelle?

Beides. OpenAI Fine-Tuning (GPT-4o, GPT-4.1, GPT-4o-mini), Anthropic via Bedrock Custom Models, Google Gemini Tuning und den gesamten Open-Source-Stack: Llama 3.3, Qwen 2.5, Mistral, Phi-4, DeepSeek. Die Wahl ist eine Ingenieurentscheidung, keine Weltanschauungsfrage. Closed Models bieten schnellere Lieferung und null Infrastrukturaufwand. Open Models bieten Eigentümerschaft, günstigere Inferenz im großen Maßstab und On-Premises-Deployment bei Compliance-Anforderungen. Wir führen dasselbe Eval-Harness gegen beide Wege aus und stellen die Kosten-pro-Token, Latenz und Qualitätsabwägung schriftlich dar, bevor Sie sich festlegen.

Was enthält Ihr Eval-Harness tatsächlich, und wie verhindern Sie Regressionen?

Jedes Engagement wird mit einer versionierten Eval-Suite ausgeliefert: ein Golden Set von 200 bis 1.000 annotierten Beispielen, die gemeinsam mit dem Kunden kuratiert wurden, automatisiertes LLM-as-Judge mit Rubrik-Bewertung (Ragas, eigene Rubriken), aufgabenspezifische Metriken (BLEU, ROUGE, Exact Match, F1, Struktur-Ausgabetreue) und adversarielle Probes auf Halluzination, Jailbreak und PII-Leakage. Jeder Trainingslauf wird auf Weights & Biases mit der vollständigen Eval-Tabelle gepostet. CI blockiert jeden Merge, der das Golden Set um mehr als den vereinbarten Schwellenwert (typischerweise 2 %) zurückbringt. Die Eval-Suite gehört Ihnen, ist versionskontrolliert in Ihrem Repository und läuft bei jedem Release gegen Frontier-Baselines.

Wie halten Sie Fine-Tuning-Kosten unter Kontrolle, insbesondere bei iterativen Experimenten?

Zuerst parametereffiziente Methoden: LoRA und QLoRA reduzieren den GPU-Speicherbedarf um 60 bis 80 Prozent und ermöglichen das Ausführen eines Llama 3.3 70B SFT auf einem einzelnen A100-80GB-Knoten für unter 300 EUR. Unsloth und Axolotl bieten uns den doppelten Trainingsdurchsatz im Vergleich zu Vanilla Hugging Face TRL. Wir setzen standardmäßig QLoRA 4-bit für die erste Experimentierphase ein und wechseln zu vollem Fine-Tuning nur, wenn Ablations belegen, dass es die Eval-Nadel bewegt. Die Inferenzkosten werden durch INT8/INT4-Quantisierung (AWQ, GPTQ), vLLM Continuous Batching und Speculative Decoding kontrolliert. Ein typischer Kunde wechselt von 18.000 EUR/Monat Frontier-API-Ausgaben zu 3.500 EUR/Monat Self-Hosted-Inferenz.

Was ist mit dem Datenschutz, wenn wir Trainingsdaten an Ihr Team senden?

Das Engagement beginnt mit einem gegenseitigen NDA und einem DSGVO-konformen DPA. Trainingsdaten verbleiben in Ihrem Cloud-Account: Wir arbeiten via assumed IAM Roles, kopieren keine Daten auf Laptops, und der Trainings-Cluster läuft in Ihrer VPC (AWS SageMaker, GCP Vertex, Azure ML oder Ihr Kubernetes). Für regulierte Daten unterzeichnen wir HIPAA BAAs und betreiben ausschließlich in HIPAA-fähigen Regionen. PII-Redaktions-Pipelines (Presidio, eigene Regex + NER) sind Teil des Datenkurationschritts. Wir sind DSGVO-konform, ISO-27001-bereit, SOC 2 Type II in Vorbereitung, HIPAA-fähig und CCPA-berücksichtigt.

Wie lange dauert ein typisches Fine-Tuning-Pilotprojekt vom Kickoff bis zur Produktion?

Acht bis zwölf Wochen bis zum ersten Produktionsmodell. Wochen 1 bis 2: Machbarkeit und Eval-Harness-Design. Wochen 3 bis 5: Datenkuration, Annotierungs-Pipeline und Golden-Set-Erstellung. Wochen 6 bis 8: SFT plus DPO/ORPO-Trainingsläufe, Ablations und Eval-Iteration. Wochen 9 bis 10: Inferenz-Serving (vLLM oder TGI), Quantisierung, Lasttests. Wochen 11 bis 12: Canary-Rollout, Monitoring-Dashboards, Runbooks und Übergabe an Ihr Team. Danach wechseln wir entweder zu einem Retainer (kontinuierliches Training, Eval-Erweiterung, Drift-Reaktion) oder ziehen uns sauber mit Dokumentation zurück.

Haben Sie eine Fine-Tuning-Idee und benötigen zunächst ein schriftliches Machbarkeitsmemo?

Erstgespräch vereinbaren