LoRA vs fine-tuning completo — quale scegliere nel 2026?

Predefinire LoRA o QLoRA. La letteratura recente (LoRA Land, S-LoRA, benchmark NVIDIA NeMo) mostra che LoRA corrisponde alla qualità del fine-tuning completo per instruction-following e adattamento al dominio nell'85–95% dei casi all'1–5% del calcolo e dello storage. Il fine-tuning completo vince quando (a) si cambia il tokenizer o il vocabolario, (b) si necessita di ragionamento cross-dominio che mescola il nuovo dominio con la base, (c) si opera su scala estrema e si sono già esauriti i budget di prompt e LoRA. Per la maggior parte dei casi d'uso SaaS — estrazione strutturata, classificazione, trasferimento di stile, Q&A di dominio — LoRA è la risposta giusta.

Quale soglia di ROI giustifica un fine-tuning rispetto al prompting di GPT-4o o Claude?

Esegui il test di unit-economics. Se la fattura mensile di inferenza su una API frontier è inferiore a USD 5.000 e la latenza è accettabile, non fare il fine-tuning. Tra USD 5k e USD 25k/mese, il fine-tuning risparmia denaro solo se il caso d'uso è abbastanza ristretto da permettere a un modello da 7B-13B di farlo bene. Sopra USD 25k/mese, o dove la latenza sotto 300ms p95 conta, o dove la residenza dei dati vieta l'API, il fine-tuning è di solito la scelta giusta. Il break-even su un programma di fine-tuning da USD 80k contro una fattura API di USD 30k/mese è di circa 3 mesi incluso l'overhead operativo.

Quanto costa la manutenzione continua dopo il primo fine-tuning?

Pianificare USD 8–25k per trimestre per i fine-tuning in produzione: rivalutazione rispetto ai benchmark frozen (USD 1–3k), monitoraggio del drift sul traffico di produzione (USD 1–3k), crescita incrementale del dataset e ri-etichettatura (USD 3–10k), un ciclo di re-training per trimestre (USD 2–6k LoRA, USD 8–30k completo) e modifiche all'infrastruttura di inferenza al variare dei modelli base o dell'hardware. Le aziende che saltano la manutenzione vedono i punteggi di valutazione scendere di 4–9 punti percentuali per trimestre sul traffico di produzione.

Benchmark costi fine-tuning LLM 2026

Q: Quanto costa fare il fine-tuning di un LLM open-weights nel 2026?

Un fine-tuning LoRA su un modello da 7B-13B con 50k coppie di istruzioni di alta qualità costa circa USD 200–1.500 in calcolo GPU su H100 spot (1–4 ore su 8xH100). Un fine-tuning completo dello stesso modello è 5–15x di più (USD 1.500–15.000). Un fine-tuning LoRA di un modello da 70B si attesta a USD 1.500–6.000; il fine-tuning completo di un 70B è USD 25.000–90.000. Aggiungere la curation del dataset (tipicamente USD 8–40k per 50k coppie di alta qualità a seconda del dominio) e l'infrastruttura di valutazione (USD 3–15k di setup, USD 200–1.000 per ogni passaggio di valutazione). Programma di produzione totale: USD 30–180k end-to-end escluso l'accordo di licenza del modello base.

Q: Qual è il prezzo corrente per ora GPU nel 2026?

H100 80GB on-demand sui tre grandi hyperscaler: USD 2,80–4,20 per ora GPU. H100 su neocloud (CoreWeave, Lambda, RunPod, Crusoe): USD 1,80–2,60 on-demand, USD 1,20–1,80 spot. H200 141GB: USD 3,50–5,00 on-demand. B200 / GB200: USD 5,50–8,00 on-demand sui tier di accesso anticipato, ma con 2–3x di throughput su training FP4/FP8 rispetto a H100, l'economia per token spesso batte H100. A100 80GB ha toccato il fondo a USD 0,80–1,40 spot ed è ancora ottimale per i costi del lavoro LoRA su modelli piccoli.

Q: Di quanto dataset ho effettivamente bisogno?

Per l'instruction-tuning LoRA: 1k–10k esempi accuratamente curati di solito batte 100k esempi rumorosi (cfr. LIMA, Alpaca, linea Tulu). Per Q&A adattato al dominio: 5k–30k coppie QA da conversazioni reali, più un hold-out di 500–2k coppie per la valutazione. Per classificazione o estrazione: 2k–10k esempi etichettati per classe con forte accordo inter-annotatore. Tratta il dataset come l'asset; tratta il modello come l'artefatto. La maggior parte dei fine-tuning falliti sono fallimenti del dataset travestiti da fallimenti del modello.

Daniel Reyes Principal Engineer (AI/ML), YuSMP Group · Sistemi LLM, RAG e fine-tuning per la produzione

Il fine-tuning di un LLM open-weights costa nel 2026 circa USD 30.000–180.000 end-to-end per un programma LoRA di livello produzione su un modello da 7B–70B — ma solo USD 200–6.000 sono calcolo GPU. La curatela del dataset, la valutazione e l'MLOps dominano il budget. I fine-tuning completi su modelli da 70B+ superano ancora regolarmente USD 250.000.

Quanto costa il fine-tuning LLM nel 2026?

Il lato computazionale del fine-tuning è sceso drasticamente per due anni consecutivi. Il nuovo collo di bottiglia è la qualità del dataset e la valutazione, non il costo GPU. Un programma LoRA di livello produzione su un modello open-weights da 7B–13B si attesta ora tra USD 30.000 e USD 180.000 end-to-end. I fine-tuning completi su modelli da 70B+ superano ancora regolarmente USD 250.000 quando si include il dataset, l'eval harness, MLOps e i primi sei mesi di manutenzione.

Programma	Solo calcolo	End-to-end (con dati + eval + ops)
LoRA 7B-13B, task ristretto	USD 200–1,500	USD 30–80k
LoRA 70B, adattamento istruzioni	USD 1,500–6,000	USD 60–180k
Full FT 7B-13B	USD 1,500–15,000	USD 60–200k
Full FT 70B	USD 25–90k	USD 180–450k
Pre-training continuato, 70B, 50B token	USD 180–420k	USD 400k–1.2M

Prezzi per ora GPU su H100, H200, B200, A100

I prezzi GPU nel 2026 sono irriconoscibili rispetto all'era degli acquisti frenetici del 2023. Tre forze hanno fatto crollare i prezzi: l'offerta H100 finalmente al passo con la domanda nel H2 2025, B200/GB200 in disponibilità generale nel Q1 2026 e l'ascesa delle neocloud (CoreWeave, Lambda, RunPod, Crusoe, FluidStack, Vast.ai) che operano con margini materialmente inferiori rispetto agli hyperscaler.

GPU	Hyperscaler on-demand	Neocloud on-demand	Neocloud spot
A100 80GB	USD 2.20–3.20	USD 1.20–1.80	USD 0.80–1.40
H100 80GB SXM	USD 2.80–4.20	USD 1.80–2.60	USD 1.20–1.80
H200 141GB	USD 3.50–5.00	USD 2.40–3.40	USD 1.80–2.40
B200 / GB200 (early access)	USD 5.50–8.00	USD 4.00–6.00	limitato
MI300X	USD 2.90–4.00	USD 1.90–2.80	USD 1.30–1.90

Due dinamiche di prezzo meritano di essere evidenziate. Prima, B200 sembra costoso sulla carta ma offre circa 2,0–2,5x di throughput rispetto a H100 sul training FP8 e 3–4x sull'inferenza FP4. Il costo per token su un fine-tuning da 70B è ora di solito inferiore su B200 rispetto a H100 nonostante il costo orario più alto. Seconda, MI300X con ROCm 6.2+ ha raggiunto vera parità di produzione per il fine-tuning di LLaMA, Mistral, Qwen e Gemma; se il team può tollerare l'ecosistema leggermente meno maturo, si risparmia il 10–25%.

LoRA, QLoRA, DPO, fine-tuning completo — costo per metodo

Cinque metodi coprono il 95% del lavoro di fine-tuning nel 2026. Scegli in base alla forma del problema, non in base a ciò che il team ha letto più di recente.

Supervised fine-tuning (SFT) con LoRA / QLoRA. Addestramento di adapter a basso rango (rank 8–64) sopra i pesi base frozen. Aggiornato lo 0,1–3% dei parametri. QLoRA aggiunge la quantizzazione a 4 bit del modello base, riducendo la VRAM di ~4x. Costo: 1–5% dell'SFT completo. Scelta predefinita.
SFT completo. Aggiornamento di tutti i parametri. Richiesto quando si cambia il tokenizer, il vocabolario o si fa pre-training continuato. 20–50x più VRAM rispetto a LoRA — serve ZeRO-3 / FSDP su più nodi per qualsiasi modello sopra 13B.
Direct Preference Optimisation (DPO) e varianti (IPO, KTO, ORPO). Allinea il modello su coppie di preferenza senza un modello di reward separato. Costo: 1,5–3x SFT sullo stesso dataset. Richiesto quando il tono, la sicurezza o il comportamento di rifiuto sono rilevanti.
Pre-training continuato. Da decine a centinaia di miliardi di nuovi token di corpus di dominio. Costo dominato dall'acquisizione dei dati (USD 50–500k per un corpus specialistico pulito) e dal calcolo (USD 100–500k per 50B token su un modello da 70B).
Reinforcement learning da reward verificabili (RLVR), GRPO, RLHF. La direzione calda del 2026 per i modelli di ragionamento. Costo 3–8x SFT per wall-clock comparabile; l'infrastruttura di eval e del modello di reward domina la spesa totale.

Curation del dataset: la voce di spesa più grande che nessuno pianifica

In ogni audit che eseguiamo su un programma di fine-tuning bloccato, il dataset è il problema bloccante. La stima interna all'inizio è invariabilmente 5–10x troppo bassa. Uno stack di costi realistico 2026 per un dataset di 30.000 coppie di istruzioni di alta qualità in un dominio regolamentato:

Attività	Range di costo	Note
Sourcing e clearance dei diritti	USD 2–15k	Revisione legale, licenze di corpus di terze parti, verifica opt-out CDSM Articolo 4(3) per l'UE.
Pipeline di redazione PII / PHI	USD 3–8k	Presidio + regex personalizzata + revisione assistita da LLM; obbligatorio per HIPAA, minimizzazione dei dati GDPR Articolo 5.
Lavoro di annotazione (SME)	USD 6–25k	USD 20–120/ora a seconda del dominio; legale, medico, finanziario al vertice.
Generazione di dati sintetici	USD 1–6k	Chiamate Claude Opus o GPT-4o + verifica; il costo si comprime rapidamente su Sonnet/Haiku per la verifica.
Accordo inter-annotatore e arbitrato	USD 1–4k	10–20% doppiamente etichettato, arbitrato di terze parti sui disaccordi.
Valutazione e decontaminazione del dataset	USD 1–3k	Sovrapposizione n-gram rispetto all'eval held-out, near-duplicati MinHash, contaminazione rispetto a MMLU/HumanEval/ecc.

Totale per un dataset serio da 30k coppie: USD 14–61k. Per 100k+ coppie in un dominio regolamentato, attendersi USD 40–180k. Ecco perché diciamo ai clienti durante gli interventi di fine-tuning che il budget del dataset dovrebbe essere 3–6x il budget di calcolo, non il contrario.

Dashboard dei costi MLOps che mostra la spesa GPU per esperimento — Tratta ogni esperimento di fine-tuning come una voce di budget. La sperimentazione non tracciata è dove si perde il 30–50% della spesa del programma.

Infrastruttura di valutazione: non distribuire alla cieca

Il modo più rapido per perdere denaro nel fine-tuning è distribuire un modello la cui qualità non si può misurare. Infrastruttura di valutazione per un programma serio:

Test set frozen — 500–2.000 esempi, mai visti in fase di addestramento, versionati, hashati in CI.
Set di replay del traffico di produzione — 1.000–5.000 prompt reali anonimizzati, aggiornati mensilmente.
Slice di bias — performance per gruppo per soddisfare EU AI Act Articolo 10(2)(f) e le spiegazioni GDPR Articolo 22.
Harness LLM-come-giudice — Giudice Claude o classe GPT-4 con rubriche validate a mano; correlazione con i giudici umani misurata trimestralmente.
Benchmark pubblici dove rilevante — MMLU-Pro, MATH, HumanEval+, IFEval, MT-Bench v2, più un benchmark specifico del dominio da costruire una volta e riutilizzare.

Costo di setup: USD 3–15k. Costo per valutazione su un harness serio: USD 200–1.000 in chiamate LLM-giudice. Budget USD 800–3.000/mese per valutazione continua sul traffico di produzione.

Esempi reali: budget end-to-end per 7B, 13B, 70B

Tre programmi reali condotti nel 2025–2026, con numeri ripuliti dalle specifiche del cliente:

Esempio A — LoRA su Qwen2.5-7B per estrazione di documenti legali

Dataset: 14.000 coppie di estrazione etichettate a mano da corpus contrattuale. Annotazione da paralegali a USD 45/ora blended. Costo dataset: USD 38.000.
Calcolo: 8xH100 spot per 6 ore per training run, 14 run su sweep di iperparametri + passaggio DPO. USD 1.150.
Eval harness: USD 6.200 setup, USD 1.800/mese continuativo.
MLOps e engineering: 6 settimane di ingegnere senior a USD 180/ora blended. USD 43.200.
Programma totale: USD 88.550. Ha sostituito una pipeline GPT-4o a USD 22k/mese; break-even al mese 5.

Esempio B — QLoRA su Llama-3.3-70B per il tono del supporto clienti

Dataset: 22.000 ticket di supporto storici con risposte degli agenti curate; augmentation sintetica 3x. Costo: USD 26.000.
Calcolo: 4xH200 su neocloud per 9 ore per run, 8 run. USD 1.400.
Eval + ops: USD 9.800 setup, USD 2.200/mese continuativo.
Engineering: 8 settimane. USD 57.600.
Totale: USD 94.800. Ridotto il tempo medio di gestione del 31%; payback in 4 mesi solo sui risparmi di manodopera.

Esempio C — FT completo su Mistral-Small-22B per trascrizione clinica

Dataset: 48.000 coppie di dettatura clinica de-identificate; pipeline controllata HIPAA. Costo: USD 142.000.
Calcolo: 32xH100 FSDP, 18 ore per run, 5 run. USD 13.500.
Eval (valutata da SME medici) e compliance: USD 31.000.
Engineering, MLOps, revisione HIPAA: USD 118.000.
Totale: USD 304.500. L'API frontier non era un'opzione (bloccata da BAA in questa configurazione); il fine-tuning è il prodotto.

Economia dell'inferenza e break-even rispetto alle API frontier

I costi di addestramento del fine-tuning sono eclissati nel corso della vita di un modello dai costi di inferenza. Fai i calcoli in anticipo.

Un fine-tuning da 13B servito su un'istanza vLLM 2xH100 all'80% di utilizzo offre circa 12–20 milioni di token di output/giorno a un costo di USD 95–150/giorno. Sono USD 0,005–0,012 per 1k token di output, contro USD 0,60–15,00 per 1k per le API frontier — un vantaggio di 50–1500x su scala. Un fine-tuning da 70B su 4xH100 si attesta a USD 0,02–0,06 per 1k token.

Regola empirica di break-even: un programma di fine-tuning da USD 80–120k si ripaga entro 3–6 mesi una volta superata la soglia di USD 25.000/mese in inferenza API frontier. Al di sotto di USD 5.000/mese, il prompting di un modello frontier vince sul TCO; non fare il fine-tuning.

Manutenzione continua e drift

Un modello fine-tuned non è un prodotto finito. Pianifica USD 8–25k per trimestre:

Rivalutazione rispetto ai test set frozen e aggiornati — USD 1–3k.
Monitoraggio del drift sul traffico di produzione (distanza embedding, similarità semantica, tasso di rifiuto, tasso di allucinazione) — USD 1–3k.
Crescita incrementale del dataset e ri-etichettatura su casi difficili — USD 3–10k.
Un ciclo di re-training per trimestre — USD 2–30k a seconda del metodo.
Migrazione del modello base quando vengono rilasciati pesi open migliori (2–3x per anno nel 2025–2026) — una tantum USD 8–40k.

Overhead di compliance: GDPR, EU AI Act Articolo 53, SOC 2

Il fine-tuning interagisce con tre framework di compliance più di quanto ci si aspetti:

GDPR. Articolo 5 minimizzazione dei dati, Articolo 25 privacy by design, Articolo 28 accordi con i vendor di annotazione, Articolo 32 sicurezza del trattamento, Articolo 35 DPIA per trattamenti ad alto rischio. Il PII nei dati di addestramento è un no assoluto — redigere o sintetizzare.
EU AI Act Articolo 53. Se si fa il fine-tuning di un modello open-weights e lo si ridistribuisce, si è un fornitore GPAI. Si devono documentazione tecnica Allegato XI, informazioni ai fornitori downstream Allegato XII, una politica sul copyright che rispetti l'opt-out CDSM Articolo 4(3) e un riepilogo pubblico dei dati di addestramento sul template dell'AI Office. Abbiamo trattato i dettagli nella nostra checklist EU AI Act per SaaS.
SOC 2 / ISO 27001:2022. Allegato A.5.34 (privacy e protezione dei PII), A.8.10 (cancellazione delle informazioni), A.8.11 (mascheramento dei dati), A.8.28 (codice sicuro) si applicano tutti alla pipeline di addestramento; gli auditor stanno rapidamente aggiornando le pratiche.

Per il lavoro HIPAA, la catena BAA (tu → cloud → provider GPU) deve reggere fino in fondo. AWS, GCP e Azure offrono BAA sugli SKU H100/H200; la maggior parte delle neocloud no. Quel premio di costo è reale e inevitabile per i fine-tuning con PHI.

I 10 errori di costo più comuni negli audit clienti

Optare per il fine-tuning completo quando LoRA sarebbe sufficiente — spreco di calcolo 10–30x.
Sweep di iperparametri senza early-stopping — costo dello sweep 3–6x.
Utilizzare hyperscaler on-demand quando spot o neocloud andrebbe bene — costo di calcolo 2–4x.
Nessun eval harness — distribuire e sperare, poi ri-addestrare da zero quando le performance sono insufficienti.
Lavoro di annotazione imputato al budget «engineering», mai tracciato come costo dei dati.
Nessun controllo di contaminazione rispetto ai benchmark pubblici — punteggi di valutazione gonfiati, fallimento nel mondo reale.
Il training set trapela PII / PHI; il consulente legale impone il rifacimento.
Nessun test set frozen; i punteggi di valutazione derivano con il derivare del test set.
Scegliere un modello base che va in EOL tra 6 settimane — re-training forzato.
Nessun modello di costo dell'inferenza prima dell'inizio dell'addestramento — «abbiamo fatto il fine-tuning di un 70B e ora i costi di serving sono 4x dell'API che abbiamo sostituito».

Team di engineering che rivede le curve di addestramento e il burndown dei costi — I programmi di fine-tuning hanno successo grazie alla disciplina operativa: ogni run pianificato, ogni metrica tracciata, ogni dollaro attribuito.

Se stai valutando un programma di fine-tuning rispetto alle API frontier o a RAG, il nostro team di LLM fine-tuning & MLOps esegue una fattibilità a prezzo fisso di due settimane — audit del dataset, raccomandazione del metodo, stima delle ore GPU, modello ROI, delta EU AI Act. Per decisioni di architettura AI più ampie nel contesto di sviluppo SaaS e software su misura, un Fractional CTO con esperienza MLOps in produzione di solito si ripaga nel primo mese.

FAQ

Quanto costa fare il fine-tuning di un LLM open-weights nel 2026?

LoRA su un modello da 7B-13B: USD 200–1.500 in calcolo; USD 30–80k end-to-end. LoRA su 70B: USD 1.500–6.000 calcolo; USD 60–180k end-to-end. Fine-tuning completo 5–15x di più.

LoRA vs fine-tuning completo?

Predefinire LoRA / QLoRA. Corrisponde alla qualità del FT completo nell'85–95% dei casi all'1–5% del calcolo e dello storage. FT completo solo quando si cambia tokenizer/vocabolario o si fa pre-training continuato.

Qual è il prezzo corrente per ora GPU nel 2026?

H100 80GB su neocloud spot USD 1,20–1,80; on-demand USD 1,80–2,60. H200 USD 2,40–3,40 on-demand. B200 USD 4,00–6,00 su neocloud ma throughput 2–2,5x. A100 spot USD 0,80–1,40 ancora ottimale per LoRA su modelli piccoli.

Di quanto dataset ho effettivamente bisogno?

Instruction-tuning LoRA: 1k–10k coppie di alta qualità batte 100k rumorose. Q&A di dominio: 5k–30k conversazioni reali. Classificazione/estrazione: 2k–10k per classe con forte accordo inter-annotatore.

Quando il ROI giustifica un fine-tuning?

Sotto USD 5k/mese di spesa API — non fare il fine-tuning. USD 5k–25k — solo se il caso è ristretto. Sopra USD 25k/mese, o dove la latenza o la residenza dei dati lo impone — quasi sempre sì.

Quanto costa la manutenzione continua?

USD 8–25k per trimestre: rivalutazione, monitoraggio del drift, dati incrementali, un re-training. I team che saltano la manutenzione perdono 4–9 punti percentuali di qualità per trimestre.

Costruisci il dataset come se fosse il prodotto. Il modello è l'artefatto.

Il cambiamento a più alto impatto che facciamo negli audit di fine-tuning è riallocare il budget dal calcolo ai dati. Spendi il 60–70% del budget del programma nella curation del dataset, nella valutazione e nell'etichettatura; spendi il 5–15% nel calcolo; spendi il resto in MLOps. I team che invertono questo rapporto distribuiscono modelli che mancano il bersaglio; quelli che lo rispettano distribuiscono modelli che crescono.

Ultimo aggiornamento 3 luglio 2026. I prezzi riflettono i prezzi on-demand e spot pubblicamente osservabili sui principali hyperscaler e neocloud a metà 2026 e possono variare significativamente. Nulla in questo articolo costituisce consulenza legale o di investimento.

Servizi correlati

Copertina del servizio LLM Fine-Tuning & MLOps

Richiedi una proposta

Condividi alcuni dettagli e un consulente senior risponderà entro un giorno lavorativo.

Preferisci parlare direttamente? ☎ Chiama +374 44 871 811 ✉ sales@yusmpgroup.com

Benchmark dei costi di fine-tuning LLM 2026 — ore GPU, dataset, ROI

Quanto costa il fine-tuning LLM nel 2026?

Prezzi per ora GPU su H100, H200, B200, A100

LoRA, QLoRA, DPO, fine-tuning completo — costo per metodo

Curation del dataset: la voce di spesa più grande che nessuno pianifica

Infrastruttura di valutazione: non distribuire alla cieca

Esempi reali: budget end-to-end per 7B, 13B, 70B

Esempio A — LoRA su Qwen2.5-7B per estrazione di documenti legali

Esempio B — QLoRA su Llama-3.3-70B per il tono del supporto clienti

Esempio C — FT completo su Mistral-Small-22B per trascrizione clinica

Economia dell'inferenza e break-even rispetto alle API frontier

Manutenzione continua e drift

Overhead di compliance: GDPR, EU AI Act Articolo 53, SOC 2

I 10 errori di costo più comuni negli audit clienti

FAQ

Quanto costa fare il fine-tuning di un LLM open-weights nel 2026?

LoRA vs fine-tuning completo?

Qual è il prezzo corrente per ora GPU nel 2026?

Di quanto dataset ho effettivamente bisogno?

Quando il ROI giustifica un fine-tuning?

Quanto costa la manutenzione continua?

Costruisci il dataset come se fosse il prodotto. Il modello è l'artefatto.

Servizi correlati

LLM Fine-Tuning & MLOps

Sviluppo SaaS

Fractional CTO

Richiedi una proposta