Daniel Reyes, YuSMP Group
Daniel Reyes Principal Engineer (KI/ML), YuSMP Group · LLM-Systeme, RAG und Fine-Tuning für die Produktion

Kurzfassung — der Kostenrahmen 2026

Die Compute-Seite des Fine-Tunings ist zwei Jahre in Folge stark gefallen. Der neue Engpass ist die Datensatzqualität und Evaluierung, nicht die GPU-Kosten. Ein produktionsreifes LoRA-Programm auf einem 7B–13B-Open-Weights-Modell liegt heute end-to-end zwischen USD 30.000 und USD 180.000. Volle Fine-Tunes auf 70B+-Modellen übersteigen weiterhin regelmäßig USD 250.000, wenn Sie Datensatz, Eval-Harness, MLOps und die ersten sechs Monate Wartung einbeziehen.

ProgrammNur ComputeEnd-to-end (mit Daten + Eval + Ops)
LoRA 7B-13B, enge AufgabeUSD 200–1.500USD 30–80k
LoRA 70B, Instruction-AnpassungUSD 1.500–6.000USD 60–180k
Volles FT 7B-13BUSD 1.500–15.000USD 60–200k
Volles FT 70BUSD 25–90kUSD 180–450k
Continued Pre-Training, 70B, 50B TokensUSD 180–420kUSD 400k–1,2 Mio.

GPU-Stunden-Preise über H100, H200, B200, A100

Die GPU-Preise im Jahr 2026 sind im Vergleich zur Panikkauf-Ära 2023 nicht wiederzuerkennen. Drei Kräfte ließen die Preise einbrechen: Das H100-Angebot holte die Nachfrage in H2 2025 endlich ein, B200/GB200 erreichten in Q1 2026 die allgemeine Verfügbarkeit, und Neoclouds (CoreWeave, Lambda, RunPod, Crusoe, FluidStack, Vast.ai) traten mit deutlich geringeren Margen als die Hyperscaler an.

GPUHyperscaler on-demandNeocloud on-demandNeocloud Spot
A100 80GBUSD 2,20–3,20USD 1,20–1,80USD 0,80–1,40
H100 80GB SXMUSD 2,80–4,20USD 1,80–2,60USD 1,20–1,80
H200 141GBUSD 3,50–5,00USD 2,40–3,40USD 1,80–2,40
B200 / GB200 (Early Access)USD 5,50–8,00USD 4,00–6,00begrenzt
MI300XUSD 2,90–4,00USD 1,90–2,80USD 1,30–1,90

Zwei Preisdynamiken sind hervorzuheben. Erstens: B200 wirkt auf dem Papier teuer, liefert aber etwa 2,0–2,5x Durchsatz gegenüber H100 beim FP8-Training und 3–4x bei der FP4-Inferenz. Die Kosten pro Token bei einem 70B-Fine-Tune sind heute trotz höherem Stundensatz auf B200 meist niedriger als auf H100. Zweitens: MI300X mit ROCm 6.2+ hat beim Fine-Tuning von LLaMA, Mistral, Qwen und Gemma echte Produktionsparität erreicht; wenn Ihr Team das etwas dünnere Ökosystem verkraftet, sparen Sie 10–25%.

LoRA, QLoRA, DPO, volles Fine-Tuning — Kosten pro Methode

Fünf Methoden decken 95% der Fine-Tuning-Arbeit 2026 ab. Wählen Sie nach der Form des Problems, nicht danach, worüber Ihr Team zuletzt gelesen hat.

  • Supervised Fine-Tuning (SFT) mit LoRA / QLoRA. Trainiert Low-Rank-Adapter (Rang 8–64) über eingefrorenen Basisgewichten. 0,1–3% der Parameter werden aktualisiert. QLoRA ergänzt eine 4-Bit-Quantisierung des Basismodells und reduziert den VRAM um ca. das 4-Fache. Kosten: 1–5% des vollen SFT. Standardwahl.
  • Volles SFT. Aktualisiert alle Parameter. Erforderlich, wenn Sie Tokenizer, Vokabular ändern oder Continued Pre-Training betreiben. 20–50x mehr VRAM als LoRA — oberhalb von 13B benötigen Sie ZeRO-3 / FSDP über mehrere Knoten.
  • Direct Preference Optimisation (DPO) und Varianten (IPO, KTO, ORPO). Richtet das Modell anhand von Präferenzpaaren aus, ohne separates Reward-Modell. Kosten: 1,5–3x SFT auf demselben Datensatz. Erforderlich, wenn Stil, Sicherheit oder Verweigerungsverhalten zählen.
  • Continued Pre-Training. Zig bis Hunderte Milliarden neuer Tokens eines Domänenkorpus. Kosten dominiert durch die Datenbeschaffung (USD 50–500k für ein sauberes Spezialistenkorpus) und Compute (USD 100–500k für 50B Tokens auf einem 70B-Modell).
  • Reinforcement Learning from Verifiable Rewards (RLVR), GRPO, RLHF. Die heiße Richtung 2026 für Reasoning-Modelle. Kosten 3–8x SFT bei vergleichbarer Wall-Clock-Zeit; die Eval- und Reward-Modell-Infrastruktur dominiert die Gesamtausgaben.

Datensatzkuratierung: der größte Posten, den niemand budgetiert

In jedem Audit, das wir an einem stockenden Fine-Tuning-Programm durchführen, ist der Datensatz der entscheidende Engpass. Die anfängliche interne Schätzung ist ausnahmslos um das 5–10-Fache zu niedrig. Ein realistischer Kostenstapel 2026 für einen hochwertigen Instruktionsdatensatz mit 30.000 Paaren in einer regulierten Domäne:

AktivitätKostenspanneAnmerkungen
Beschaffung und RechteklärungUSD 2–15kJuristische Prüfung, Lizenzierung von Drittkorpora, CDSM-Artikel-4(3)-Opt-out-Prüfungen für die EU.
PII-/PHI-Redaktions-PipelineUSD 3–8kPresidio + eigene Regex + LLM-gestützte Prüfung; verpflichtend für HIPAA, DSGVO-Artikel-5-Datenminimierung.
Annotationsarbeit (Fachexperten)USD 6–25kUSD 20–120/Stunde je nach Domäne; Recht, Medizin, Finanzen an der Spitze.
Generierung synthetischer DatenUSD 1–6kClaude-Opus- oder GPT-4o-Aufrufe + Verifizierung; die Kosten sinken schnell mit Sonnet/Haiku für die Verifizierung.
Inter-Annotator-Übereinstimmung und SchlichtungUSD 1–4k10–20% doppelt gelabelt, Drittpartei-Schlichtung bei Uneinigkeit.
Datensatz-Evaluierung und DekontaminationUSD 1–3kn-Gramm-Überlappung gegen Hold-out-Eval, MinHash-Near-Duplicates, Kontaminationsprüfung gegen MMLU/HumanEval/usw.

Gesamt für einen ernstzunehmenden Datensatz mit 30k Paaren: USD 14–61k. Für 100k+ Paare in einer regulierten Domäne sind USD 40–180k zu erwarten. Deshalb sagen wir Kunden in Fine-Tuning-Engagements, dass das Datensatzbudget das 3–6-Fache des Compute-Budgets betragen sollte, nicht umgekehrt.

MLOps-Kosten-Dashboard mit GPU-Ausgaben je Experiment
Behandeln Sie jedes Fine-Tuning-Experiment als budgetierten Posten. Nicht nachverfolgtes Experimentieren ist die Stelle, an der 30–50% der Programmausgaben versickern.

Evaluierungsinfrastruktur: nicht blind ausliefern

Der schnellste Weg, beim Fine-Tuning Geld zu verlieren, ist die Auslieferung eines Modells, dessen Qualität Sie nicht messen können. Eval-Infrastruktur für ein ernsthaftes Programm:

  • Eingefrorenes Testset — 500–2.000 Beispiele, nie im Training gesehen, versioniert, in der CI gehasht.
  • Replay-Set aus Produktionsverkehr — 1.000–5.000 anonymisierte echte Prompts, monatlich aktualisiert.
  • Bias-Slices — Leistung je Gruppe, um EU-AI-Act-Artikel 10(2)(f) und DSGVO-Artikel-22-Erklärungen zu erfüllen.
  • LLM-as-Judge-Harness — ein Judge der Claude- oder GPT-4-Klasse mit handvalidierten Rubriken; die Korrelation mit menschlichen Beurteilern wird vierteljährlich gemessen.
  • Öffentliche Benchmarks, wo relevant — MMLU-Pro, MATH, HumanEval+, IFEval, MT-Bench v2, plus ein domänenspezifischer Benchmark, den Sie einmal aufbauen und wiederverwenden.

Einrichtungskosten: USD 3–15k. Kosten pro Eval auf einem ernsthaften Harness: USD 200–1.000 an LLM-Judge-Aufrufen. Kalkulieren Sie USD 800–3.000/Monat für kontinuierliche Evaluierung gegen Produktionsverkehr.

Durchgerechnete Beispiele: End-to-End-Budgets für 7B, 13B, 70B

Drei reale Programme, die wir 2025–2026 umgesetzt haben, mit von Kundenspezifika bereinigten Zahlen:

Beispiel A — LoRA auf Qwen2.5-7B für die Extraktion juristischer Dokumente

  • Datensatz: 14.000 handgelabelte Extraktionspaare aus einem Vertragskorpus. Annotation durch Paralegals zu USD 45/Stunde (Blended-Rate). Datensatzkosten: USD 38.000.
  • Compute: 8xH100-Spot für 6 Stunden pro Trainingslauf, 14 Läufe über einen Hyperparameter-Sweep + DPO-Durchlauf. USD 1.150.
  • Eval-Harness: USD 6.200 Einrichtung, USD 1.800/Monat laufend.
  • MLOps und Engineering: 6 Wochen Senior-Entwickler zu USD 180/Std. (Blended-Rate). USD 43.200.
  • Gesamtprogramm: USD 88.550. Ersetzte eine GPT-4o-Pipeline für USD 22k/Monat; Break-even in Monat 5.

Beispiel B — QLoRA auf Llama-3.3-70B für die Stimme im Kundensupport

  • Datensatz: 22.000 historische Support-Tickets mit kuratierten Agentenantworten; synthetische Augmentierung 3x. Kosten: USD 26.000.
  • Compute: 4xH200 auf Neocloud für 9 Stunden pro Lauf, 8 Läufe. USD 1.400.
  • Eval + Ops: USD 9.800 Einrichtung, USD 2.200/Monat laufend.
  • Engineering: 8 Wochen. USD 57.600.
  • Gesamt: USD 94.800. Senkte die durchschnittliche Bearbeitungszeit um 31%; Amortisation in 4 Monaten allein durch Personaleinsparungen.

Beispiel C — Volles FT auf Mistral-Small-22B für einen klinischen Scribe

  • Datensatz: 48.000 de-identifizierte klinische Diktatpaare; HIPAA-kontrollierte Pipeline. Kosten: USD 142.000.
  • Compute: 32xH100 FSDP, 18 Stunden pro Lauf, 5 Läufe. USD 13.500.
  • Eval (von medizinischen Fachexperten benotet) und Compliance: USD 31.000.
  • Engineering, MLOps, HIPAA-Prüfung: USD 118.000.
  • Gesamt: USD 304.500. Eine Frontier-API kam nicht infrage (in dieser Konfiguration BAA-blockiert); der Fine-Tune ist das Produkt.

Inferenzökonomie und der Break-even gegen Frontier-APIs

Die Trainingskosten eines Fine-Tunes werden über die Lebensdauer eines Modells von den Inferenzkosten in den Schatten gestellt. Rechnen Sie früh.

Ein 13B-Fine-Tune, der auf einer 2xH100-vLLM-Instanz bei 80% Auslastung betrieben wird, liefert rund 12–20 Millionen Output-Tokens/Tag zu Kosten von USD 95–150/Tag. Das sind USD 0,005–0,012 pro 1k Output-Tokens, gegenüber USD 0,60–15,00 pro 1k bei Frontier-APIs — ein 50–1500-facher Vorteil im Maßstab. Ein 70B-Fine-Tune auf 4xH100 liegt bei USD 0,02–0,06 pro 1k Tokens.

Break-even-Faustregel: Ein Fine-Tuning-Programm für USD 80–120k amortisiert sich innerhalb von 3–6 Monaten, sobald Sie USD 25.000/Monat an Frontier-API-Inferenz übersteigen. Unter USD 5.000/Monat gewinnt das Prompting eines Frontier-Modells beim TCO; dann nicht fine-tunen.

Laufende Wartung und Drift

Ein fine-getuntes Modell ist kein fertiges Produkt. Planen Sie USD 8–25k pro Quartal:

  • Neubewertung gegen eingefrorene und aktualisierte Testsets — USD 1–3k.
  • Drift-Monitoring auf Produktionsverkehr (Embedding-Distanz, semantische Ähnlichkeit, Verweigerungsrate, Halluzinationsrate) — USD 1–3k.
  • Inkrementelles Datensatzwachstum und Re-Labeling schwieriger Fälle — USD 3–10k.
  • Ein Re-Train-Zyklus pro Quartal — USD 2–30k je nach Methode.
  • Migration des Basismodells, wenn bessere Open Weights erscheinen (2–3x pro Jahr 2025–2026) — einmalig USD 8–40k.

Compliance-Overhead: DSGVO, EU AI Act Artikel 53, SOC 2

Fine-Tuning berührt drei Compliance-Rahmenwerke stärker, als die meisten erwarten:

  • DSGVO. Artikel 5 Datenminimierung, Artikel 25 Privacy by Design, Artikel 28 Auftragsverarbeitungsverträge mit Annotationsdienstleistern, Artikel 32 Sicherheit der Verarbeitung, Artikel 35 DSFA für risikoreiche Verarbeitung. PII in Trainingsdaten ist ein striktes Nein — redigieren oder synthetisieren.
  • EU AI Act Artikel 53. Wenn Sie ein Open-Weights-Modell fine-tunen und weiterverbreiten, sind Sie ein GPAI-Anbieter. Sie schulden technische Dokumentation nach Anhang XI, Informationen für nachgelagerte Anbieter nach Anhang XII, eine Urheberrechtsrichtlinie, die das CDSM-Artikel-4(3)-Opt-out beachtet, sowie eine öffentliche Zusammenfassung der Trainingsdaten auf der Vorlage des AI Office. Wir haben die Details in unserer EU-AI-Act-SaaS-Checkliste behandelt.
  • SOC 2 / ISO 27001:2022. Anhang A.5.34 (Privatsphäre und Schutz von PII), A.8.10 (Informationslöschung), A.8.11 (Datenmaskierung), A.8.28 (sichere Codierung) gelten allesamt für Ihre Trainings-Pipeline; Auditoren holen schnell auf.

Bei HIPAA-gebundener Arbeit muss die BAA-Kette (Sie → Cloud → GPU-Anbieter) durchgängig halten. AWS, GCP und Azure bieten BAA für H100-/H200-SKUs; die meisten Neoclouds nicht. Dieser Kostenaufschlag ist real und bei PHI-Fine-Tunes unvermeidlich.

Top 10 der Kostenfehler, die wir in Kunden-Audits sehen

  1. Standardmäßig volles Fine-Tuning, obwohl LoRA genügen würde — 10–30x Compute-Verschwendung.
  2. Hyperparameter-Sweeps ohne Early-Stopping — 3–6x Sweep-Kosten.
  3. On-demand-Hyperscaler genutzt, obwohl Spot oder Neocloud ausgereicht hätten — 2–4x Compute-Kosten.
  4. Kein Eval-Harness — ausliefern und beten, dann bei Unterleistung von Grund auf neu trainieren.
  5. Annotationsarbeit auf das „Engineering“-Budget gebucht, nie als Datenkosten erfasst.
  6. Keine Kontaminationsprüfung gegen öffentliche Benchmarks — aufgeblähte Eval-Werte, Versagen in der Praxis.
  7. Das Trainingsset leckt PII / PHI; die Rechtsabteilung erzwingt eine Wiederholung.
  8. Kein eingefrorenes Testset; die Eval-Werte driften, während das Testset driftet.
  9. Wahl eines Basismodells, das in 6 Wochen das End-of-Life erreicht — Neutraining erzwungen.
  10. Kein Inferenzkostenmodell, bevor das Training startet — „wir haben ein 70B fine-getunt, und jetzt kostet das Serving das 4-Fache der API, die wir ersetzt haben“.
Engineering-Team prüft Trainingskurven und Kosten-Burndown
Fine-Tuning-Programme gelingen durch operative Disziplin: jeder Lauf budgetiert, jede Metrik nachverfolgt, jeder Dollar zugeordnet.

Wenn Sie ein Fine-Tuning-Programm gegen Frontier-APIs oder RAG abwägen, führt unser Team für LLM-Fine-Tuning & MLOps eine zweiwöchige Festpreis-Machbarkeitsstudie durch — Datensatz-Audit, Methodenempfehlung, GPU-Stunden-Schätzung, ROI-Modell, EU-AI-Act-Delta. Für umfassendere KI-Architekturentscheidungen in SaaS-Entwicklungs- und Individualsoftware-Kontexten amortisiert sich ein Fractional CTO mit ausgelieferter MLOps-Erfahrung meist schon im ersten Monat.

FAQ

Was kostet das Fine-Tuning eines Open-Weights-LLM im Jahr 2026?

LoRA auf einem 7B-13B-Modell: USD 200–1.500 Compute; USD 30–80k end-to-end. LoRA auf 70B: USD 1.500–6.000 Compute; USD 60–180k end-to-end. Volle Fine-Tunes das 5–15-Fache.

LoRA vs. volles Fine-Tuning?

Standardmäßig LoRA / QLoRA. Erreicht in 85–95% der Fälle die Qualität des vollen FT bei 1–5% des Compute- und Speicheraufwands. Volles FT nur bei Änderung von Tokenizer/Vokabular oder bei Continued Pre-Training.

Wie hoch ist der gängige GPU-Stunden-Preis im Jahr 2026?

H100 80GB auf Neocloud-Spot USD 1,20–1,80; on-demand USD 1,80–2,60. H200 USD 2,40–3,40 on-demand. B200 USD 4,00–6,00 auf Neocloud, aber mit 2–2,5x Durchsatz. A100-Spot USD 0,80–1,40 weiterhin kostenoptimal für kleines LoRA.

Wie groß muss mein Datensatz tatsächlich sein?

LoRA-Instruction-Tuning: 1k–10k hochwertige Paare schlagen 100k verrauschte. Domänen-Q&A: 5k–30k echte Gespräche. Klassifikation/Extraktion: 2k–10k pro Klasse mit starker Inter-Annotator-Übereinstimmung.

Wann rechtfertigt der ROI ein Fine-Tuning?

Unter USD 5k/Monat API-Ausgaben — nicht fine-tunen. USD 5k–25k — nur bei engem Anwendungsfall. Über USD 25k/Monat oder wenn Latenz oder Datenresidenz es erzwingen — fast immer ja.

Was kostet die laufende Wartung?

USD 8–25k pro Quartal: Neubewertung, Drift-Monitoring, inkrementelle Daten, ein Re-Train. Teams, die die Wartung auslassen, verlieren 4–9 Prozentpunkte Qualität pro Quartal.

Bauen Sie den Datensatz, als wäre er das Produkt. Das Modell ist das Artefakt.

Die wirkungsstärkste Einzeländerung, die wir in Fine-Tuning-Audits vornehmen, ist die Umverteilung des Budgets von Compute zu Daten. Geben Sie 60–70% der Programmgelder für Datensatzkuratierung, Evaluierung und Labeling aus; 5–15% für Compute; den Rest für MLOps. Teams, die dieses Verhältnis umdrehen, liefern Modelle, die danebengehen; Teams, die es respektieren, liefern Modelle, deren Wert sich kumuliert.

Zuletzt aktualisiert am 26. Mai 2026. Die Preise spiegeln öffentlich beobachtbare On-demand- und Spot-Preise bei großen Hyperscalern und Neoclouds mit Stand Mai 2026 wider und können sich stark verschieben. Nichts in diesem Artikel stellt eine Rechts- oder Anlageberatung dar.