Daniel Reyes, YuSMP Group
Daniel Reyes Principal Engineer (AI/ML), YuSMP Group · Sistemi LLM, RAG e fine-tuning per la produzione

TL;DR — il range di costo 2026

Il lato computazionale del fine-tuning è sceso drasticamente per due anni consecutivi. Il nuovo collo di bottiglia è la qualità del dataset e la valutazione, non il costo GPU. Un programma LoRA di livello produzione su un modello open-weights da 7B–13B si attesta ora tra USD 30.000 e USD 180.000 end-to-end. I fine-tuning completi su modelli da 70B+ superano ancora regolarmente USD 250.000 quando si include il dataset, l'eval harness, MLOps e i primi sei mesi di manutenzione.

ProgrammaSolo calcoloEnd-to-end (con dati + eval + ops)
LoRA 7B-13B, task ristrettoUSD 200–1,500USD 30–80k
LoRA 70B, adattamento istruzioniUSD 1,500–6,000USD 60–180k
Full FT 7B-13BUSD 1,500–15,000USD 60–200k
Full FT 70BUSD 25–90kUSD 180–450k
Pre-training continuato, 70B, 50B tokenUSD 180–420kUSD 400k–1.2M

Prezzi per ora GPU su H100, H200, B200, A100

I prezzi GPU nel 2026 sono irriconoscibili rispetto all'era degli acquisti frenetici del 2023. Tre forze hanno fatto crollare i prezzi: l'offerta H100 finalmente al passo con la domanda nel H2 2025, B200/GB200 in disponibilità generale nel Q1 2026 e l'ascesa delle neocloud (CoreWeave, Lambda, RunPod, Crusoe, FluidStack, Vast.ai) che operano con margini materialmente inferiori rispetto agli hyperscaler.

GPUHyperscaler on-demandNeocloud on-demandNeocloud spot
A100 80GBUSD 2.20–3.20USD 1.20–1.80USD 0.80–1.40
H100 80GB SXMUSD 2.80–4.20USD 1.80–2.60USD 1.20–1.80
H200 141GBUSD 3.50–5.00USD 2.40–3.40USD 1.80–2.40
B200 / GB200 (early access)USD 5.50–8.00USD 4.00–6.00limitato
MI300XUSD 2.90–4.00USD 1.90–2.80USD 1.30–1.90

Due dinamiche di prezzo meritano di essere evidenziate. Prima, B200 sembra costoso sulla carta ma offre circa 2,0–2,5x di throughput rispetto a H100 sul training FP8 e 3–4x sull'inferenza FP4. Il costo per token su un fine-tuning da 70B è ora di solito inferiore su B200 rispetto a H100 nonostante il costo orario più alto. Seconda, MI300X con ROCm 6.2+ ha raggiunto vera parità di produzione per il fine-tuning di LLaMA, Mistral, Qwen e Gemma; se il team può tollerare l'ecosistema leggermente meno maturo, si risparmia il 10–25%.

LoRA, QLoRA, DPO, fine-tuning completo — costo per metodo

Cinque metodi coprono il 95% del lavoro di fine-tuning nel 2026. Scegli in base alla forma del problema, non in base a ciò che il team ha letto più di recente.

  • Supervised fine-tuning (SFT) con LoRA / QLoRA. Addestramento di adapter a basso rango (rank 8–64) sopra i pesi base frozen. Aggiornato lo 0,1–3% dei parametri. QLoRA aggiunge la quantizzazione a 4 bit del modello base, riducendo la VRAM di ~4x. Costo: 1–5% dell'SFT completo. Scelta predefinita.
  • SFT completo. Aggiornamento di tutti i parametri. Richiesto quando si cambia il tokenizer, il vocabolario o si fa pre-training continuato. 20–50x più VRAM rispetto a LoRA — serve ZeRO-3 / FSDP su più nodi per qualsiasi modello sopra 13B.
  • Direct Preference Optimisation (DPO) e varianti (IPO, KTO, ORPO). Allinea il modello su coppie di preferenza senza un modello di reward separato. Costo: 1,5–3x SFT sullo stesso dataset. Richiesto quando il tono, la sicurezza o il comportamento di rifiuto sono rilevanti.
  • Pre-training continuato. Da decine a centinaia di miliardi di nuovi token di corpus di dominio. Costo dominato dall'acquisizione dei dati (USD 50–500k per un corpus specialistico pulito) e dal calcolo (USD 100–500k per 50B token su un modello da 70B).
  • Reinforcement learning da reward verificabili (RLVR), GRPO, RLHF. La direzione calda del 2026 per i modelli di ragionamento. Costo 3–8x SFT per wall-clock comparabile; l'infrastruttura di eval e del modello di reward domina la spesa totale.

Curation del dataset: la voce di spesa più grande che nessuno pianifica

In ogni audit che eseguiamo su un programma di fine-tuning bloccato, il dataset è il problema bloccante. La stima interna all'inizio è invariabilmente 5–10x troppo bassa. Uno stack di costi realistico 2026 per un dataset di 30.000 coppie di istruzioni di alta qualità in un dominio regolamentato:

AttivitàRange di costoNote
Sourcing e clearance dei dirittiUSD 2–15kRevisione legale, licenze di corpus di terze parti, verifica opt-out CDSM Articolo 4(3) per l'UE.
Pipeline di redazione PII / PHIUSD 3–8kPresidio + regex personalizzata + revisione assistita da LLM; obbligatorio per HIPAA, minimizzazione dei dati GDPR Articolo 5.
Lavoro di annotazione (SME)USD 6–25kUSD 20–120/ora a seconda del dominio; legale, medico, finanziario al vertice.
Generazione di dati sinteticiUSD 1–6kChiamate Claude Opus o GPT-4o + verifica; il costo si comprime rapidamente su Sonnet/Haiku per la verifica.
Accordo inter-annotatore e arbitratoUSD 1–4k10–20% doppiamente etichettato, arbitrato di terze parti sui disaccordi.
Valutazione e decontaminazione del datasetUSD 1–3kSovrapposizione n-gram rispetto all'eval held-out, near-duplicati MinHash, contaminazione rispetto a MMLU/HumanEval/ecc.

Totale per un dataset serio da 30k coppie: USD 14–61k. Per 100k+ coppie in un dominio regolamentato, attendersi USD 40–180k. Ecco perché diciamo ai clienti durante gli interventi di fine-tuning che il budget del dataset dovrebbe essere 3–6x il budget di calcolo, non il contrario.

Dashboard dei costi MLOps che mostra la spesa GPU per esperimento
Tratta ogni esperimento di fine-tuning come una voce di budget. La sperimentazione non tracciata è dove si perde il 30–50% della spesa del programma.

Infrastruttura di valutazione: non distribuire alla cieca

Il modo più rapido per perdere denaro nel fine-tuning è distribuire un modello la cui qualità non si può misurare. Infrastruttura di valutazione per un programma serio:

  • Test set frozen — 500–2.000 esempi, mai visti in fase di addestramento, versionati, hashati in CI.
  • Set di replay del traffico di produzione — 1.000–5.000 prompt reali anonimizzati, aggiornati mensilmente.
  • Slice di bias — performance per gruppo per soddisfare EU AI Act Articolo 10(2)(f) e le spiegazioni GDPR Articolo 22.
  • Harness LLM-come-giudice — Giudice Claude o classe GPT-4 con rubriche validate a mano; correlazione con i giudici umani misurata trimestralmente.
  • Benchmark pubblici dove rilevante — MMLU-Pro, MATH, HumanEval+, IFEval, MT-Bench v2, più un benchmark specifico del dominio da costruire una volta e riutilizzare.

Costo di setup: USD 3–15k. Costo per valutazione su un harness serio: USD 200–1.000 in chiamate LLM-giudice. Budget USD 800–3.000/mese per valutazione continua sul traffico di produzione.

Esempi reali: budget end-to-end per 7B, 13B, 70B

Tre programmi reali condotti nel 2025–2026, con numeri ripuliti dalle specifiche del cliente:

Esempio A — LoRA su Qwen2.5-7B per estrazione di documenti legali

  • Dataset: 14.000 coppie di estrazione etichettate a mano da corpus contrattuale. Annotazione da paralegali a USD 45/ora blended. Costo dataset: USD 38.000.
  • Calcolo: 8xH100 spot per 6 ore per training run, 14 run su sweep di iperparametri + passaggio DPO. USD 1.150.
  • Eval harness: USD 6.200 setup, USD 1.800/mese continuativo.
  • MLOps e engineering: 6 settimane di ingegnere senior a USD 180/ora blended. USD 43.200.
  • Programma totale: USD 88.550. Ha sostituito una pipeline GPT-4o a USD 22k/mese; break-even al mese 5.

Esempio B — QLoRA su Llama-3.3-70B per il tono del supporto clienti

  • Dataset: 22.000 ticket di supporto storici con risposte degli agenti curate; augmentation sintetica 3x. Costo: USD 26.000.
  • Calcolo: 4xH200 su neocloud per 9 ore per run, 8 run. USD 1.400.
  • Eval + ops: USD 9.800 setup, USD 2.200/mese continuativo.
  • Engineering: 8 settimane. USD 57.600.
  • Totale: USD 94.800. Ridotto il tempo medio di gestione del 31%; payback in 4 mesi solo sui risparmi di manodopera.

Esempio C — FT completo su Mistral-Small-22B per trascrizione clinica

  • Dataset: 48.000 coppie di dettatura clinica de-identificate; pipeline controllata HIPAA. Costo: USD 142.000.
  • Calcolo: 32xH100 FSDP, 18 ore per run, 5 run. USD 13.500.
  • Eval (valutata da SME medici) e compliance: USD 31.000.
  • Engineering, MLOps, revisione HIPAA: USD 118.000.
  • Totale: USD 304.500. L'API frontier non era un'opzione (bloccata da BAA in questa configurazione); il fine-tuning è il prodotto.

Economia dell'inferenza e break-even rispetto alle API frontier

I costi di addestramento del fine-tuning sono eclissati nel corso della vita di un modello dai costi di inferenza. Fai i calcoli in anticipo.

Un fine-tuning da 13B servito su un'istanza vLLM 2xH100 all'80% di utilizzo offre circa 12–20 milioni di token di output/giorno a un costo di USD 95–150/giorno. Sono USD 0,005–0,012 per 1k token di output, contro USD 0,60–15,00 per 1k per le API frontier — un vantaggio di 50–1500x su scala. Un fine-tuning da 70B su 4xH100 si attesta a USD 0,02–0,06 per 1k token.

Regola empirica di break-even: un programma di fine-tuning da USD 80–120k si ripaga entro 3–6 mesi una volta superata la soglia di USD 25.000/mese in inferenza API frontier. Al di sotto di USD 5.000/mese, il prompting di un modello frontier vince sul TCO; non fare il fine-tuning.

Manutenzione continua e drift

Un modello fine-tuned non è un prodotto finito. Pianifica USD 8–25k per trimestre:

  • Rivalutazione rispetto ai test set frozen e aggiornati — USD 1–3k.
  • Monitoraggio del drift sul traffico di produzione (distanza embedding, similarità semantica, tasso di rifiuto, tasso di allucinazione) — USD 1–3k.
  • Crescita incrementale del dataset e ri-etichettatura su casi difficili — USD 3–10k.
  • Un ciclo di re-training per trimestre — USD 2–30k a seconda del metodo.
  • Migrazione del modello base quando vengono rilasciati pesi open migliori (2–3x per anno nel 2025–2026) — una tantum USD 8–40k.

Overhead di compliance: GDPR, EU AI Act Articolo 53, SOC 2

Il fine-tuning interagisce con tre framework di compliance più di quanto ci si aspetti:

  • GDPR. Articolo 5 minimizzazione dei dati, Articolo 25 privacy by design, Articolo 28 accordi con i vendor di annotazione, Articolo 32 sicurezza del trattamento, Articolo 35 DPIA per trattamenti ad alto rischio. Il PII nei dati di addestramento è un no assoluto — redigere o sintetizzare.
  • EU AI Act Articolo 53. Se si fa il fine-tuning di un modello open-weights e lo si ridistribuisce, si è un fornitore GPAI. Si devono documentazione tecnica Allegato XI, informazioni ai fornitori downstream Allegato XII, una politica sul copyright che rispetti l'opt-out CDSM Articolo 4(3) e un riepilogo pubblico dei dati di addestramento sul template dell'AI Office. Abbiamo trattato i dettagli nella nostra checklist EU AI Act per SaaS.
  • SOC 2 / ISO 27001:2022. Allegato A.5.34 (privacy e protezione dei PII), A.8.10 (cancellazione delle informazioni), A.8.11 (mascheramento dei dati), A.8.28 (codice sicuro) si applicano tutti alla pipeline di addestramento; gli auditor stanno rapidamente aggiornando le pratiche.

Per il lavoro HIPAA, la catena BAA (tu → cloud → provider GPU) deve reggere fino in fondo. AWS, GCP e Azure offrono BAA sugli SKU H100/H200; la maggior parte delle neocloud no. Quel premio di costo è reale e inevitabile per i fine-tuning con PHI.

I 10 errori di costo più comuni negli audit clienti

  1. Optare per il fine-tuning completo quando LoRA sarebbe sufficiente — spreco di calcolo 10–30x.
  2. Sweep di iperparametri senza early-stopping — costo dello sweep 3–6x.
  3. Utilizzare hyperscaler on-demand quando spot o neocloud andrebbe bene — costo di calcolo 2–4x.
  4. Nessun eval harness — distribuire e sperare, poi ri-addestrare da zero quando le performance sono insufficienti.
  5. Lavoro di annotazione imputato al budget «engineering», mai tracciato come costo dei dati.
  6. Nessun controllo di contaminazione rispetto ai benchmark pubblici — punteggi di valutazione gonfiati, fallimento nel mondo reale.
  7. Il training set trapela PII / PHI; il consulente legale impone il rifacimento.
  8. Nessun test set frozen; i punteggi di valutazione derivano con il derivare del test set.
  9. Scegliere un modello base che va in EOL tra 6 settimane — re-training forzato.
  10. Nessun modello di costo dell'inferenza prima dell'inizio dell'addestramento — «abbiamo fatto il fine-tuning di un 70B e ora i costi di serving sono 4x dell'API che abbiamo sostituito».
Team di engineering che rivede le curve di addestramento e il burndown dei costi
I programmi di fine-tuning hanno successo grazie alla disciplina operativa: ogni run pianificato, ogni metrica tracciata, ogni dollaro attribuito.

Se stai valutando un programma di fine-tuning rispetto alle API frontier o a RAG, il nostro team di LLM fine-tuning & MLOps esegue una fattibilità a prezzo fisso di due settimane — audit del dataset, raccomandazione del metodo, stima delle ore GPU, modello ROI, delta EU AI Act. Per decisioni di architettura AI più ampie nel contesto di sviluppo SaaS e software su misura, un Fractional CTO con esperienza MLOps in produzione di solito si ripaga nel primo mese.

FAQ

Quanto costa fare il fine-tuning di un LLM open-weights nel 2026?

LoRA su un modello da 7B-13B: USD 200–1.500 in calcolo; USD 30–80k end-to-end. LoRA su 70B: USD 1.500–6.000 calcolo; USD 60–180k end-to-end. Fine-tuning completo 5–15x di più.

LoRA vs fine-tuning completo?

Predefinire LoRA / QLoRA. Corrisponde alla qualità del FT completo nell'85–95% dei casi all'1–5% del calcolo e dello storage. FT completo solo quando si cambia tokenizer/vocabolario o si fa pre-training continuato.

Qual è il prezzo corrente per ora GPU nel 2026?

H100 80GB su neocloud spot USD 1,20–1,80; on-demand USD 1,80–2,60. H200 USD 2,40–3,40 on-demand. B200 USD 4,00–6,00 su neocloud ma throughput 2–2,5x. A100 spot USD 0,80–1,40 ancora ottimale per LoRA su modelli piccoli.

Di quanto dataset ho effettivamente bisogno?

Instruction-tuning LoRA: 1k–10k coppie di alta qualità batte 100k rumorose. Q&A di dominio: 5k–30k conversazioni reali. Classificazione/estrazione: 2k–10k per classe con forte accordo inter-annotatore.

Quando il ROI giustifica un fine-tuning?

Sotto USD 5k/mese di spesa API — non fare il fine-tuning. USD 5k–25k — solo se il caso è ristretto. Sopra USD 25k/mese, o dove la latenza o la residenza dei dati lo impone — quasi sempre sì.

Quanto costa la manutenzione continua?

USD 8–25k per trimestre: rivalutazione, monitoraggio del drift, dati incrementali, un re-training. I team che saltano la manutenzione perdono 4–9 punti percentuali di qualità per trimestre.

Costruisci il dataset come se fosse il prodotto. Il modello è l'artefatto.

Il cambiamento a più alto impatto che facciamo negli audit di fine-tuning è riallocare il budget dal calcolo ai dati. Spendi il 60–70% del budget del programma nella curation del dataset, nella valutazione e nell'etichettatura; spendi il 5–15% nel calcolo; spendi il resto in MLOps. I team che invertono questo rapporto distribuiscono modelli che mancano il bersaglio; quelli che lo rispettano distribuiscono modelli che crescono.

Ultimo aggiornamento 26 maggio 2026. I prezzi riflettono i prezzi on-demand e spot pubblicamente osservabili sui principali hyperscaler e neocloud a maggio 2026 e possono variare significativamente. Nulla in questo articolo costituisce consulenza legale o di investimento.