Daniel Reyes, YuSMP Group
Daniel Reyes Principal Engineer (AI/ML), YuSMP Group · Sistemi LLM, RAG e fine-tuning per la produzione

La risposta in due righe

Se la conoscenza cambia più velocemente di una volta per trimestre, si usa il RAG. Se è necessario un formato di output specifico, una latenza sotto 200 ms o un ragionamento specifico del dominio che il modello base non riesce a produrre in modo affidabile, si fa il fine-tuning. I prodotti seri usano entrambi: un piccolo modello open fine-tuned come motore di ragionamento, con il RAG che fornisce fatti aggiornati e citabili. Questa è la risposta corretta e noiosa del 2026, quella che rilasciamo 9 volte su 10 per i clienti della nostra practice RAG-as-a-Service.

Il framework decisionale nel 2026

Il dibattito tra RAG e fine-tuning è stato offuscato da un anno di marketing. I modelli a contesto lungo (Claude 4.6 Sonnet a 1M di token, Gemini 2.5 Pro a 2M) hanno spinto alcuni team a sostenere che “il RAG è morto”. Non lo è, e non lo sarà. Il contesto lungo sposta il confine; non lo cancella. Il framework che usiamo per scegliere:

  1. Quanto devono essere freschi i dati? Se i fatti cambiano tra i tagli di addestramento e l’inferenza, non è possibile inserirli con il fine-tuning. Il RAG o l’uso di strumenti è l’unica risposta onesta.
  2. Quanto è grande il corpus? Sotto ~50.000 token di conoscenza stabile, il prompting in-context è sufficiente. Oltre quella soglia, il RAG inizia a ripagare.
  3. Quanto specifico è l’output? Se è necessario JSON rigido, un DSL personalizzato, un tono o catene di ragionamento specifiche del dominio, il fine-tuning vale il suo costo.
  4. Quali sono le vostre economie unitarie? Sotto 5M di token/giorno, i modelli chiusi in hosting vincono. Sopra 50M di token/giorno su un carico stabile, un modello fine-tuned da 8–13B sulla propria GPU è drammaticamente più economico.
  5. Quale latenza è necessaria? Un modello fine-tuned da 8B self-hosted su H200 gira a 80–120 token/s per un singolo utente con latenza del primo token sotto 150 ms. Claude 4.6 Sonnet via API si attesta a 600–900 ms di primo token dall’UE.

RAG: cos’è davvero nel 2026 e perché domina ancora

Il retrieval-augmented generation nel 2026 non è la pipeline naive “embed, cerca, inserisci nel prompt” del 2023. Un sistema RAG in produzione nel 2026 ha almeno sei componenti, ognuno con una reale decisione ingegneristica dietro:

ComponenteDefault 2026Perché è importante
Ingestione / chunkingLlamaIndex / Unstructured / pipeline Haystack, chunking semantico a 400–800 tokenIl 90% dei fallimenti RAG sono fallimenti di chunking
EmbeddingVoyage-3, OpenAI text-embedding-3-large, BGE-M3 (open)Voyage-3 guida il leaderboard MTEB; BGE-M3 è la migliore opzione open
Vector storeQdrant, Weaviate, pgvector, Pinecone serverlessSotto 100M vettori, pgvector sullo stesso Postgres già in uso è difficile da battere
Retrieval ibridoBM25 + denso + filtro metadati, fuso via RRFIl retrieval puro denso perde ancora contro l’ibrido su corpus enterprise
Re-rankingCohere Rerank 3, BGE-reranker-v2, Voyage Rerank-2Aggiunge 50–80 ms ma aumenta la precisione top-3 del 15–30 pp
GenerazioneClaude 4.6 Sonnet, GPT-4o, Gemini 2.5 Pro o un fine-tune self-hostedScegliere per latenza e costo, non per «miglior benchmark»

Cosa è cambiato negli ultimi 18 mesi: il retrieval strutturato. La ricerca semantica pura sui chunk perde rispetto a pipeline multi-stage che combinano BM25, retrieval denso, filtri metadati e un re-ranker. Su precision@5 osserviamo un salto da 0,62 (denso naive) a 0,88 (ibrido + rerank) sullo stesso corpus, e questo si traduce direttamente in meno risposte allucinate a valle.

Fine-tuning: cosa significa davvero nel 2026

Il fine-tuning nel 2026 si divide nettamente in due categorie:

  • Adapter tuning su modello chiuso. OpenAI offre il fine-tuning su GPT-4o e o3-mini; Google offre il tuning su Gemini 2.5 Flash; Anthropic offre il fine-tuning di Claude 4.6 Haiku per i clienti AWS Bedrock. Si carica un JSONL di esempi, si paga per token di addestramento e si consuma tramite la stessa API.
  • Fine-tuning su pesi open. LoRA o QLoRA su Llama 4 (8B, 70B, 405B), Mistral Large 3, Mixtral 8×22B, Qwen 3 o DeepSeek V3. Si possiedono i pesi, si controlla l’inferenza e il costo unitario scende drasticamente su scala.

In cosa eccelle il fine-tuning: formato, stile, vocabolario del dominio e catene di ragionamento che il modello base ha già visto ma non riesce a riprodurre in modo affidabile. Llama 4 8B fine-tuned su 30.000 esempi del workflow di codifica medica del cliente batterà Claude 4.6 Sonnet zero-shot su quel workflow, girando al 3% del costo.

Dove il fine-tuning è debole: insegnare nuovi fatti. Nonostante un decennio di paper, l’inserimento di conoscenza parametrica tramite fine-tuning rimane inaffidabile. I modelli memorizzano alcuni fatti, ne generalizzano altri in modo insufficiente e confabulano sui bordi. Se si fa fine-tuning per “insegnare” al modello il proprio catalogo prodotti, si trascorreranno tre mesi a inseguire casi limite che una pipeline RAG risolve in una settimana.

Benchmark rilevanti per il confronto

I benchmark pubblici sono diventati un proxy scarso per le performance in produzione, ma alcuni aiutano ancora quando si confrontano i modelli base che si intende fine-tunare:

  • MMLU e MMLU-Pro: ampiezza della conoscenza generale. Claude 4.6 Opus e GPT-4o si attestano sopra 90; Llama 4 70B intorno a 84; Mistral Large 3 intorno a 82.
  • GPQA Diamond: ragionamento a livello universitario. o3 guida a ~88; Claude 4.6 Opus ~85; Gemini 2.5 Pro ~83.
  • SWE-bench Verified: ingegneria del software nel mondo reale. Claude 4.6 Sonnet guida a ~72%; o3 ~70%; Gemini 2.5 Pro ~65%.
  • HumanEval+, LiveCodeBench: coding con controllo della contaminazione.
  • Il proprio eval set. Sempre. Nessun benchmark pubblico prevede le performance sui propri dati.

Costo: numeri reali 2026

Ecco cosa paghiamo effettivamente a maggio 2026, per 1M di token, per i modelli di produzione più comuni:

ModelloInput / 1MOutput / 1MContesto
Claude 4.6 Opus$15$751M
Claude 4.6 Sonnet$3$151M
Claude 4.6 Haiku$0,80$4200k
GPT-4o$2,50$10128k
o3$10$40200k
Gemini 2.5 Pro$1,25$52M
Gemini 2.5 Flash$0,15$0,601M
Llama 4 70B (self-hosted, 8×H200)~$0,40~$0,60128k
Llama 4 8B fine-tuned (1×H200)~$0,10~$0,15128k
DeepSeek V3 (API)$0,27$1,10128k

Costi di fine-tuning nel 2026, quello che paghiamo effettivamente:

  • Llama 4 8B LoRA su 50.000 esempi: 200–600 $ per run su un H200 a noleggio (8–24 ore a 3–5 $/ora).
  • Llama 4 70B LoRA su 50.000 esempi: 1.500–4.000 $ su 4×H200 in 18–36 ore.
  • Llama 4 70B full fine-tune: 4.000–12.000 $ su 8×H200.
  • GPT-4o fine-tuning: ~25 $/1M token di addestramento via API OpenAI.
  • Gemini 2.5 Flash tuning: ~8–12 $/1M token di addestramento.

Aggiungere 30–50% per la costruzione dell’eval set e 2–3 iterazioni per convergere.

Il pattern ibrido usato dalla maggior parte degli stack in produzione

Per deployment enterprise di medie e grandi dimensioni, la nostra architettura di default è:

  1. Generatore: un Llama 4 8B o derivato Mistral 7B con LoRA, addestrato su 20–80k esempi del ragionamento del dominio del cliente e del formato di output. Ospitato su un singolo H200 o distribuito con vLLM per il throughput.
  2. Retriever: pgvector ibrido + BM25, con filtri metadati e Cohere Rerank 3.
  3. Router: una piccola chiamata Claude 4.6 Haiku decide se rispondere dal contesto precedente, attivare il retrieval o scalare a un modello più potente.
  4. Escalation: Claude 4.6 Sonnet o o3 per il 5–10% di query che richiedono un ragionamento più profondo.
  5. Collante: DSPy per l’ottimizzazione dei prompt, server MCP per confini puliti degli strumenti, Anthropic SDK per il client di escalation.

Questo tipicamente arriva a 0,30–0,80 $ per 1.000 interazioni utente complessivi, rispetto a 1,50–4,00 $ per una pipeline pura Claude 4.6 Sonnet che fa lo stesso lavoro — e fornisce un modello di cui si è effettivamente proprietari.

Stack di riferimento che rilasciamo

  • Ingestione: LlamaIndex + Unstructured (PDF, DOCX, slide, moduli scansionati), Haystack per l’orchestrazione della pipeline quando l’elaborazione dei grafi è intensa.
  • Vector DB: pgvector (sotto 100M vettori), Qdrant (sopra 100M o multi-tenant), Weaviate dove grafi + vettori contano.
  • Embedding: Voyage-3 (chiuso, leader su MTEB) o BGE-M3 (open).
  • Re-ranker: Cohere Rerank 3 (API) o BGE-reranker-v2-m3 (self-hosted).
  • Layer prompt + programma: DSPy per programmi ottimizzabili; LangChain ancora accettabile ma sempre più sostituito.
  • Superficie agente: i server MCP espongono retrieval, strumenti e sorgenti dati in modo pulito a uno o più client LLM.
  • Eval: Ragas, TruLens, più il proprio gold set held-out per cliente.
  • Osservabilità: Langfuse, Helicone, Datadog LLM Observability.

Per una build di riferimento, vedi il nostro servizio GenAI Integration e la pagina parallela AI/ML & Data Engineering.

Cinque errori costosi

  1. Fine-tuning per “insegnare” fatti. Non funziona in modo affidabile. Si usa il RAG.
  2. Saltare la valutazione. Se non si riesce a misurare la correttezza su un held-out set, non si può migliorare. Occorre costruire l’eval prima del modello.
  3. Passare direttamente a un modello frontier quando si necessita di throughput. Claude 4.6 Opus su un carico di lavoro interno ad alto volume brucia denaro che si potrebbe spendere in ingegneri. Si inizia con Haiku o Gemini Flash, si scala solo quando l’accuratezza lo richiede.
  4. Chunking naive. I chunk a dimensione fissa tagliano tabelle e codice. Si usa il chunking semantico + strutturale. Si testa con documenti reali fin dal primo giorno.
  5. Ignorare il Regolamento UE sull’IA. Se si distribuisce nell’UE, le pipeline RAG e di fine-tuning hanno nuovi obblighi di tracciabilità dall’agosto 2026. Lo trattiamo in dettaglio nella sezione conformità al Regolamento UE sull’IA.

FAQ

Il RAG è sempre più economico del fine-tuning?

Per conoscenza in evoluzione, sì. Oltre ~50M token/giorno su carichi stabili, un modello open fine-tuned da 8–13B è più economico per inferenza.

Il contesto lungo uccide il RAG?

No. Riempire 1M di token per richiesta costa circa 3 $ su Claude 4.6 Sonnet e aggiunge 30–90 s di latenza. Il RAG mantiene costo e latenza bassi.

Quando il fine-tuning vince senza discussioni?

Formati di output specifici, ragionamento del dominio che il modello base non riesce a emettere in modo affidabile, o latenza sotto 200 ms ad alto throughput.

Qual è lo stack default del 2026?

LlamaIndex + pgvector o Qdrant + Cohere Rerank 3 + Claude 4.6 Sonnet, con DSPy per l’ottimizzazione dei prompt e MCP per i confini degli strumenti.

Quanto costa un fine-tune di Llama 4?

200–600 $ per un LoRA 8B su 50k esempi; 4–12k $ per un full fine-tune 70B su 8×H200.

RAG e fine-tuning possono essere combinati?

Sì, ed è il default di produzione per prodotti seri: ragionamento fine-tuned + fatti recuperati.

Ultimo aggiornamento: 26 maggio 2026. Prezzi e benchmark riflettono i listini dei provider e i leaderboard pubblici a maggio 2026.