TL;DR — il range di costo 2026
Il lato computazionale del fine-tuning è sceso drasticamente per due anni consecutivi. Il nuovo collo di bottiglia è la qualità del dataset e la valutazione, non il costo GPU. Un programma LoRA di livello produzione su un modello open-weights da 7B–13B si attesta ora tra USD 30.000 e USD 180.000 end-to-end. I fine-tuning completi su modelli da 70B+ superano ancora regolarmente USD 250.000 quando si include il dataset, l'eval harness, MLOps e i primi sei mesi di manutenzione.
| Programma | Solo calcolo | End-to-end (con dati + eval + ops) |
|---|---|---|
| LoRA 7B-13B, task ristretto | USD 200–1,500 | USD 30–80k |
| LoRA 70B, adattamento istruzioni | USD 1,500–6,000 | USD 60–180k |
| Full FT 7B-13B | USD 1,500–15,000 | USD 60–200k |
| Full FT 70B | USD 25–90k | USD 180–450k |
| Pre-training continuato, 70B, 50B token | USD 180–420k | USD 400k–1.2M |
Prezzi per ora GPU su H100, H200, B200, A100
I prezzi GPU nel 2026 sono irriconoscibili rispetto all'era degli acquisti frenetici del 2023. Tre forze hanno fatto crollare i prezzi: l'offerta H100 finalmente al passo con la domanda nel H2 2025, B200/GB200 in disponibilità generale nel Q1 2026 e l'ascesa delle neocloud (CoreWeave, Lambda, RunPod, Crusoe, FluidStack, Vast.ai) che operano con margini materialmente inferiori rispetto agli hyperscaler.
| GPU | Hyperscaler on-demand | Neocloud on-demand | Neocloud spot |
|---|---|---|---|
| A100 80GB | USD 2.20–3.20 | USD 1.20–1.80 | USD 0.80–1.40 |
| H100 80GB SXM | USD 2.80–4.20 | USD 1.80–2.60 | USD 1.20–1.80 |
| H200 141GB | USD 3.50–5.00 | USD 2.40–3.40 | USD 1.80–2.40 |
| B200 / GB200 (early access) | USD 5.50–8.00 | USD 4.00–6.00 | limitato |
| MI300X | USD 2.90–4.00 | USD 1.90–2.80 | USD 1.30–1.90 |
Due dinamiche di prezzo meritano di essere evidenziate. Prima, B200 sembra costoso sulla carta ma offre circa 2,0–2,5x di throughput rispetto a H100 sul training FP8 e 3–4x sull'inferenza FP4. Il costo per token su un fine-tuning da 70B è ora di solito inferiore su B200 rispetto a H100 nonostante il costo orario più alto. Seconda, MI300X con ROCm 6.2+ ha raggiunto vera parità di produzione per il fine-tuning di LLaMA, Mistral, Qwen e Gemma; se il team può tollerare l'ecosistema leggermente meno maturo, si risparmia il 10–25%.
LoRA, QLoRA, DPO, fine-tuning completo — costo per metodo
Cinque metodi coprono il 95% del lavoro di fine-tuning nel 2026. Scegli in base alla forma del problema, non in base a ciò che il team ha letto più di recente.
- Supervised fine-tuning (SFT) con LoRA / QLoRA. Addestramento di adapter a basso rango (rank 8–64) sopra i pesi base frozen. Aggiornato lo 0,1–3% dei parametri. QLoRA aggiunge la quantizzazione a 4 bit del modello base, riducendo la VRAM di ~4x. Costo: 1–5% dell'SFT completo. Scelta predefinita.
- SFT completo. Aggiornamento di tutti i parametri. Richiesto quando si cambia il tokenizer, il vocabolario o si fa pre-training continuato. 20–50x più VRAM rispetto a LoRA — serve ZeRO-3 / FSDP su più nodi per qualsiasi modello sopra 13B.
- Direct Preference Optimisation (DPO) e varianti (IPO, KTO, ORPO). Allinea il modello su coppie di preferenza senza un modello di reward separato. Costo: 1,5–3x SFT sullo stesso dataset. Richiesto quando il tono, la sicurezza o il comportamento di rifiuto sono rilevanti.
- Pre-training continuato. Da decine a centinaia di miliardi di nuovi token di corpus di dominio. Costo dominato dall'acquisizione dei dati (USD 50–500k per un corpus specialistico pulito) e dal calcolo (USD 100–500k per 50B token su un modello da 70B).
- Reinforcement learning da reward verificabili (RLVR), GRPO, RLHF. La direzione calda del 2026 per i modelli di ragionamento. Costo 3–8x SFT per wall-clock comparabile; l'infrastruttura di eval e del modello di reward domina la spesa totale.
Curation del dataset: la voce di spesa più grande che nessuno pianifica
In ogni audit che eseguiamo su un programma di fine-tuning bloccato, il dataset è il problema bloccante. La stima interna all'inizio è invariabilmente 5–10x troppo bassa. Uno stack di costi realistico 2026 per un dataset di 30.000 coppie di istruzioni di alta qualità in un dominio regolamentato:
| Attività | Range di costo | Note |
|---|---|---|
| Sourcing e clearance dei diritti | USD 2–15k | Revisione legale, licenze di corpus di terze parti, verifica opt-out CDSM Articolo 4(3) per l'UE. |
| Pipeline di redazione PII / PHI | USD 3–8k | Presidio + regex personalizzata + revisione assistita da LLM; obbligatorio per HIPAA, minimizzazione dei dati GDPR Articolo 5. |
| Lavoro di annotazione (SME) | USD 6–25k | USD 20–120/ora a seconda del dominio; legale, medico, finanziario al vertice. |
| Generazione di dati sintetici | USD 1–6k | Chiamate Claude Opus o GPT-4o + verifica; il costo si comprime rapidamente su Sonnet/Haiku per la verifica. |
| Accordo inter-annotatore e arbitrato | USD 1–4k | 10–20% doppiamente etichettato, arbitrato di terze parti sui disaccordi. |
| Valutazione e decontaminazione del dataset | USD 1–3k | Sovrapposizione n-gram rispetto all'eval held-out, near-duplicati MinHash, contaminazione rispetto a MMLU/HumanEval/ecc. |
Totale per un dataset serio da 30k coppie: USD 14–61k. Per 100k+ coppie in un dominio regolamentato, attendersi USD 40–180k. Ecco perché diciamo ai clienti durante gli interventi di fine-tuning che il budget del dataset dovrebbe essere 3–6x il budget di calcolo, non il contrario.
Infrastruttura di valutazione: non distribuire alla cieca
Il modo più rapido per perdere denaro nel fine-tuning è distribuire un modello la cui qualità non si può misurare. Infrastruttura di valutazione per un programma serio:
- Test set frozen — 500–2.000 esempi, mai visti in fase di addestramento, versionati, hashati in CI.
- Set di replay del traffico di produzione — 1.000–5.000 prompt reali anonimizzati, aggiornati mensilmente.
- Slice di bias — performance per gruppo per soddisfare EU AI Act Articolo 10(2)(f) e le spiegazioni GDPR Articolo 22.
- Harness LLM-come-giudice — Giudice Claude o classe GPT-4 con rubriche validate a mano; correlazione con i giudici umani misurata trimestralmente.
- Benchmark pubblici dove rilevante — MMLU-Pro, MATH, HumanEval+, IFEval, MT-Bench v2, più un benchmark specifico del dominio da costruire una volta e riutilizzare.
Costo di setup: USD 3–15k. Costo per valutazione su un harness serio: USD 200–1.000 in chiamate LLM-giudice. Budget USD 800–3.000/mese per valutazione continua sul traffico di produzione.
Esempi reali: budget end-to-end per 7B, 13B, 70B
Tre programmi reali condotti nel 2025–2026, con numeri ripuliti dalle specifiche del cliente:
Esempio A — LoRA su Qwen2.5-7B per estrazione di documenti legali
- Dataset: 14.000 coppie di estrazione etichettate a mano da corpus contrattuale. Annotazione da paralegali a USD 45/ora blended. Costo dataset: USD 38.000.
- Calcolo: 8xH100 spot per 6 ore per training run, 14 run su sweep di iperparametri + passaggio DPO. USD 1.150.
- Eval harness: USD 6.200 setup, USD 1.800/mese continuativo.
- MLOps e engineering: 6 settimane di ingegnere senior a USD 180/ora blended. USD 43.200.
- Programma totale: USD 88.550. Ha sostituito una pipeline GPT-4o a USD 22k/mese; break-even al mese 5.
Esempio B — QLoRA su Llama-3.3-70B per il tono del supporto clienti
- Dataset: 22.000 ticket di supporto storici con risposte degli agenti curate; augmentation sintetica 3x. Costo: USD 26.000.
- Calcolo: 4xH200 su neocloud per 9 ore per run, 8 run. USD 1.400.
- Eval + ops: USD 9.800 setup, USD 2.200/mese continuativo.
- Engineering: 8 settimane. USD 57.600.
- Totale: USD 94.800. Ridotto il tempo medio di gestione del 31%; payback in 4 mesi solo sui risparmi di manodopera.
Esempio C — FT completo su Mistral-Small-22B per trascrizione clinica
- Dataset: 48.000 coppie di dettatura clinica de-identificate; pipeline controllata HIPAA. Costo: USD 142.000.
- Calcolo: 32xH100 FSDP, 18 ore per run, 5 run. USD 13.500.
- Eval (valutata da SME medici) e compliance: USD 31.000.
- Engineering, MLOps, revisione HIPAA: USD 118.000.
- Totale: USD 304.500. L'API frontier non era un'opzione (bloccata da BAA in questa configurazione); il fine-tuning è il prodotto.
Economia dell'inferenza e break-even rispetto alle API frontier
I costi di addestramento del fine-tuning sono eclissati nel corso della vita di un modello dai costi di inferenza. Fai i calcoli in anticipo.
Un fine-tuning da 13B servito su un'istanza vLLM 2xH100 all'80% di utilizzo offre circa 12–20 milioni di token di output/giorno a un costo di USD 95–150/giorno. Sono USD 0,005–0,012 per 1k token di output, contro USD 0,60–15,00 per 1k per le API frontier — un vantaggio di 50–1500x su scala. Un fine-tuning da 70B su 4xH100 si attesta a USD 0,02–0,06 per 1k token.
Regola empirica di break-even: un programma di fine-tuning da USD 80–120k si ripaga entro 3–6 mesi una volta superata la soglia di USD 25.000/mese in inferenza API frontier. Al di sotto di USD 5.000/mese, il prompting di un modello frontier vince sul TCO; non fare il fine-tuning.
Manutenzione continua e drift
Un modello fine-tuned non è un prodotto finito. Pianifica USD 8–25k per trimestre:
- Rivalutazione rispetto ai test set frozen e aggiornati — USD 1–3k.
- Monitoraggio del drift sul traffico di produzione (distanza embedding, similarità semantica, tasso di rifiuto, tasso di allucinazione) — USD 1–3k.
- Crescita incrementale del dataset e ri-etichettatura su casi difficili — USD 3–10k.
- Un ciclo di re-training per trimestre — USD 2–30k a seconda del metodo.
- Migrazione del modello base quando vengono rilasciati pesi open migliori (2–3x per anno nel 2025–2026) — una tantum USD 8–40k.
Overhead di compliance: GDPR, EU AI Act Articolo 53, SOC 2
Il fine-tuning interagisce con tre framework di compliance più di quanto ci si aspetti:
- GDPR. Articolo 5 minimizzazione dei dati, Articolo 25 privacy by design, Articolo 28 accordi con i vendor di annotazione, Articolo 32 sicurezza del trattamento, Articolo 35 DPIA per trattamenti ad alto rischio. Il PII nei dati di addestramento è un no assoluto — redigere o sintetizzare.
- EU AI Act Articolo 53. Se si fa il fine-tuning di un modello open-weights e lo si ridistribuisce, si è un fornitore GPAI. Si devono documentazione tecnica Allegato XI, informazioni ai fornitori downstream Allegato XII, una politica sul copyright che rispetti l'opt-out CDSM Articolo 4(3) e un riepilogo pubblico dei dati di addestramento sul template dell'AI Office. Abbiamo trattato i dettagli nella nostra checklist EU AI Act per SaaS.
- SOC 2 / ISO 27001:2022. Allegato A.5.34 (privacy e protezione dei PII), A.8.10 (cancellazione delle informazioni), A.8.11 (mascheramento dei dati), A.8.28 (codice sicuro) si applicano tutti alla pipeline di addestramento; gli auditor stanno rapidamente aggiornando le pratiche.
Per il lavoro HIPAA, la catena BAA (tu → cloud → provider GPU) deve reggere fino in fondo. AWS, GCP e Azure offrono BAA sugli SKU H100/H200; la maggior parte delle neocloud no. Quel premio di costo è reale e inevitabile per i fine-tuning con PHI.
I 10 errori di costo più comuni negli audit clienti
- Optare per il fine-tuning completo quando LoRA sarebbe sufficiente — spreco di calcolo 10–30x.
- Sweep di iperparametri senza early-stopping — costo dello sweep 3–6x.
- Utilizzare hyperscaler on-demand quando spot o neocloud andrebbe bene — costo di calcolo 2–4x.
- Nessun eval harness — distribuire e sperare, poi ri-addestrare da zero quando le performance sono insufficienti.
- Lavoro di annotazione imputato al budget «engineering», mai tracciato come costo dei dati.
- Nessun controllo di contaminazione rispetto ai benchmark pubblici — punteggi di valutazione gonfiati, fallimento nel mondo reale.
- Il training set trapela PII / PHI; il consulente legale impone il rifacimento.
- Nessun test set frozen; i punteggi di valutazione derivano con il derivare del test set.
- Scegliere un modello base che va in EOL tra 6 settimane — re-training forzato.
- Nessun modello di costo dell'inferenza prima dell'inizio dell'addestramento — «abbiamo fatto il fine-tuning di un 70B e ora i costi di serving sono 4x dell'API che abbiamo sostituito».
Se stai valutando un programma di fine-tuning rispetto alle API frontier o a RAG, il nostro team di LLM fine-tuning & MLOps esegue una fattibilità a prezzo fisso di due settimane — audit del dataset, raccomandazione del metodo, stima delle ore GPU, modello ROI, delta EU AI Act. Per decisioni di architettura AI più ampie nel contesto di sviluppo SaaS e software su misura, un Fractional CTO con esperienza MLOps in produzione di solito si ripaga nel primo mese.
FAQ
Quanto costa fare il fine-tuning di un LLM open-weights nel 2026?
LoRA su un modello da 7B-13B: USD 200–1.500 in calcolo; USD 30–80k end-to-end. LoRA su 70B: USD 1.500–6.000 calcolo; USD 60–180k end-to-end. Fine-tuning completo 5–15x di più.
LoRA vs fine-tuning completo?
Predefinire LoRA / QLoRA. Corrisponde alla qualità del FT completo nell'85–95% dei casi all'1–5% del calcolo e dello storage. FT completo solo quando si cambia tokenizer/vocabolario o si fa pre-training continuato.
Qual è il prezzo corrente per ora GPU nel 2026?
H100 80GB su neocloud spot USD 1,20–1,80; on-demand USD 1,80–2,60. H200 USD 2,40–3,40 on-demand. B200 USD 4,00–6,00 su neocloud ma throughput 2–2,5x. A100 spot USD 0,80–1,40 ancora ottimale per LoRA su modelli piccoli.
Di quanto dataset ho effettivamente bisogno?
Instruction-tuning LoRA: 1k–10k coppie di alta qualità batte 100k rumorose. Q&A di dominio: 5k–30k conversazioni reali. Classificazione/estrazione: 2k–10k per classe con forte accordo inter-annotatore.
Quando il ROI giustifica un fine-tuning?
Sotto USD 5k/mese di spesa API — non fare il fine-tuning. USD 5k–25k — solo se il caso è ristretto. Sopra USD 25k/mese, o dove la latenza o la residenza dei dati lo impone — quasi sempre sì.
Quanto costa la manutenzione continua?
USD 8–25k per trimestre: rivalutazione, monitoraggio del drift, dati incrementali, un re-training. I team che saltano la manutenzione perdono 4–9 punti percentuali di qualità per trimestre.
Costruisci il dataset come se fosse il prodotto. Il modello è l'artefatto.
Il cambiamento a più alto impatto che facciamo negli audit di fine-tuning è riallocare il budget dal calcolo ai dati. Spendi il 60–70% del budget del programma nella curation del dataset, nella valutazione e nell'etichettatura; spendi il 5–15% nel calcolo; spendi il resto in MLOps. I team che invertono questo rapporto distribuiscono modelli che mancano il bersaglio; quelli che lo rispettano distribuiscono modelli che crescono.
Ultimo aggiornamento 26 maggio 2026. I prezzi riflettono i prezzi on-demand e spot pubblicamente osservabili sui principali hyperscaler e neocloud a maggio 2026 e possono variare significativamente. Nulla in questo articolo costituisce consulenza legale o di investimento.


