Daniel Reyes, YuSMP Group
Daniel Reyes Principal Engineer (AI/ML), YuSMP Group · Sistemi LLM, RAG e fine-tuning per la produzione

La risposta in 60 secondi

Entro metà 2026 lo stack enterprise per agenti AI si è stabilizzato. Le impostazioni predefinite che funzionano:

  • Modello: Claude 4.6 Sonnet come motore principale, Opus/o3 per gli step più difficili, Gemini 2.5 Pro per contesti lunghi, DeepSeek V3 o Llama 4 per lavori batch cost-sensitive.
  • Orchestrazione: LangGraph per le state machine agentive, LlamaIndex quando il retrieval è centrale, DSPy per l'ottimizzazione di prompt e pipeline. Anthropic SDK con tool use per i casi più semplici.
  • Integrazione: server MCP per ogni strumento, riutilizzati su più agenti e client.
  • Evals: Braintrust, Langfuse o Phoenix. Da 50 a 500 golden task. Eseguire a ogni modifica.
  • Observability: trace OpenTelemetry con costo token, chiamate agli strumenti e latenza per step.
  • Conformità: Regolamento UE sull'IA, Articolo 4 (alfabetizzazione AI) per tutti; gestione completa del rischio ex Articolo 6 per i casi d'uso ad alto rischio.

Il panorama dei modelli e i prezzi nel 2026

Il quadro dei modelli a metà 2026 è più stabile di quanto non sia stato dal 2023. Cinque famiglie guidano il mercato, ciascuna con un ruolo preciso.

ModelloIn / Out per 1MSWE-bench VerifiedIdeale per
Claude 4.6 Opus$15 / $75~74%Pianificazione complessa, codice avanzato, agenti a lungo orizzonte
Claude 4.6 Sonnet$3 / $15~70%Motore predefinito per agenti con tool use
OpenAI o3$10 / $40~71%Ragionamento multi-step, matematica, pianificazione strutturata
GPT-4o$2.50 / $10~55%Multimodale, voce, risposte rapide
Gemini 2.5 Pro$1.25 / $5~63%Contesto 2M token, analisi documenti in bulk
Mistral Large 3$2 / $6~52%Residenza EU, multilingue
Llama 4 (Bedrock)$0.90 / $2.70~50%Self-hostable, fine-tunable
DeepSeek V3$0.27 / $1.10~49%Batch cost-sensitive, generazione RAG

MMLU è ora saturo sopra l'88% su tutti i modelli frontier — non è più un discriminatore utile. GPQA Diamond (ragionamento scientifico a livello di dottorato) e SWE-bench Verified (issue reali di GitHub) sono i benchmark del 2026 che predicono davvero le prestazioni degli agenti.

Il livello di orchestrazione — LangGraph, LlamaIndex, DSPy

Ciascuno dei principali framework di orchestrazione ha ora un ambito di applicazione ottimale ben definito:

  • LangGraph (LangChain). Esecuzione agentiva stateful basata su grafi. La scelta predefinita per agenti con tool use e flussi di controllo ramificati. Checkpointing integrato, debug time-travel, human-in-the-loop.
  • LlamaIndex. La scelta giusta quando il retrieval è la preoccupazione centrale — Q&A su documenti, RAG su dati strutturati, agenti knowledge-base. Eccellenti connector di ingestione, reranking maturo, supporto MCP nativo dalla v0.12.
  • DSPy (Stanford). Ottimizzazione programmatica di prompt e pipeline. Si definisce la struttura, DSPy apprende i prompt tramite metriche. Ideale per pipeline ristrette dove è possibile definire una funzione obiettivo.
  • Anthropic SDK diretto. Per gli agenti con tool use più semplici (uno o due strumenti, nessuna ramificazione), lavorare senza framework con il loop di tool use dell'Anthropic SDK è più veloce e più facile da ragionare rispetto a qualsiasi framework.

Gli stack in produzione combinano frequentemente: LangGraph come state machine esterna, LlamaIndex come substrato di retrieval, DSPy per ottimizzare un sotto-prompt critico rispetto a una metrica. I framework sono interoperabili.

MCP — lo standard di integrazione che ha attecchito

Il Model Context Protocol di Anthropic è stato rilasciato a fine 2024 e a metà 2026 è diventato di fatto lo standard di integrazione predefinito per il tooling degli agenti. I principali client IDE-agente (Claude Desktop, Cursor, Continue, Windsurf, JetBrains AI), i principali framework (LangChain, LlamaIndex, Mastra) e le principali piattaforme hosted-agent lo supportano tutti.

Per le aziende questo è significativo. La realtà del 2024 — scrivere integrazioni personalizzate per ogni agente e ogni client — si è semplificata in: costruire un unico server MCP per sistema (Jira, ServiceNow, Salesforce, SharePoint, Confluence, S3, Snowflake), esporne strumenti e risorse, e ogni client conforme può usarlo.

I server MCP enterprise che realizziamo più spesso:

  • Knowledge base interne (Confluence, Notion, SharePoint) con autenticazione a livello di riga.
  • Ticketing / gestione progetti (Jira, Linear, ServiceNow) con audit logging.
  • CRM (Salesforce, HubSpot) con controllo accessi a livello di campo.
  • Data warehouse (Snowflake, BigQuery, Databricks) con template di query parametrizzati.
  • Microservizi interni tramite adapter OpenAPI → MCP.

Cinque pattern di agenti enterprise che funzionano in produzione

  1. Copilota per knowledge worker. Incorporato nello strumento preferito dall'utente (Slack, Teams, IDE, web app). RAG su documenti aziendali + pochi strumenti. Costo: $4–18 per postazione/mese su scala. Il caso d'uso a volume del 2026.
  2. Agente di deflection per il supporto clienti. Agente in prima linea per i ticket di primo livello, trasferisce all'operatore umano in caso di incertezza. Riduce il volume del 30–55% nei nostri deployment. Fondamentale: soglia di confidenza + handoff pulito, non automazione completa.
  3. Agente di ricerca per le vendite. Brief pre-meeting, ricerca account, arricchimento CRM. Read-only by design. Risparmia 40–90 minuti per AE al giorno nelle organizzazioni di vendita mid-market.
  4. Agente per l'ingegneria (code review, triage ticket, bozze di PR). Cursor + server MCP personalizzati + GitHub Actions. Guadagni di produttività reali; evals aggressivi richiesti.
  5. Agente operativo. IT interno, onboarding HR, triage degli acquisti. Il ROI per postazione più alto perché sostituisce il teatro dei sistemi di ticketing con conversazioni.

Cosa non funziona ancora in modo affidabile in produzione: agenti completamente autonomi del tipo «gestisci la mia azienda per me», pianificazione a lungo orizzonte oltre circa 30 step senza checkpoint umani, e qualsiasi decisione ad alto impatto (assunzioni, credito, medicina) senza human-in-the-loop.

Evals — la disciplina che la maggior parte dei team ignora

La ragione principale per cui i progetti di agenti enterprise falliscono nel 2026 è l'assenza di una vera disciplina di eval. Senza evals, ogni modifica al prompt è un'ipotesi, ogni cambio di modello è un rischio di regressione, e ogni reclamo del cliente richiede una ricostruzione forense.

La disciplina di eval minima per la produzione:

  1. Costruire un golden set di 50–500 task rappresentativi. Ognuno ha un input, un output atteso (o una rubrica pass/fail) e un tag di categoria.
  2. Eseguire gli eval a ogni modifica al prompt, ogni cambio di modello, ogni modifica agli strumenti. Bloccare il deploy in caso di regressione.
  3. Tracciare tre metriche in CI: tasso di successo dei task, numero medio di step per successo, costo per successo. Tutte e tre devono essere stabili o in miglioramento.
  4. Usare uno strumento: Braintrust (commerciale, migliore esperienza developer), Langfuse (open source, EU-friendly), Phoenix (Arize, open source), API evals integrata di Anthropic.
  5. Aggiungere LLM-as-judge per gli output non verificabili direttamente. Usare un modello diverso come giudice (Claude 4.6 Sonnet che valuta output di GPT-4o è comune). Calibrare il giudice su 30 output etichettati da esseri umani.

Ottimizzazione dei costi — routing, caching, distillazione

Il costo di inferenza è il nuovo COGS. Le quattro tecniche del 2026 che dominano l'ottimizzazione dei costi:

  1. Routing. Selezione del modello per step. Modello economico e capace (Sonnet) per la maggior parte del lavoro, modello di ragionamento costoso (Opus, o3) per gli step difficili. Risparmio tipico: 40–70%.
  2. Prompt caching. Anthropic mette in cache i token di input con uno sconto del 90%; OpenAI del 50%. Per i carichi di lavoro con system prompt e contesti documento stabili, il caching risparmia il 30–55% del costo di input.
  3. Distillazione. Registrare gli output di Claude/GPT, fare fine-tuning di un modello open di piccole dimensioni (Llama 4 8B, Mistral 7B) su task specifici. Inferenza da 5 a 15 volte più economica con il 92–97% di qualità mantenuta. Vedi LLM fine-tuning & MLOps.
  4. Output strutturato. La decodifica vincolata (JSON schema, regex, BAML) riduce contemporaneamente la spesa in token e i tassi di retry.

Combinando queste tecniche, si porta abitualmente una fattura di $25–80 per postazione al mese a $4–18 senza perdita misurabile di qualità.

Observability per gli agenti

Gli agenti sono state machine non deterministiche che effettuano chiamate agli strumenti. I soli log non bastano. Il minimo indispensabile:

  • Trace OpenTelemetry con uno span per chiamata LLM e per chiamata agli strumenti. Attributi: modello, token in input, token in output, costo, latenza, successo.
  • Dashboard per agente: tasso di successo, latenza p95, costo p95, strumenti che falliscono più spesso, prompt più rumorosi.
  • Un'interfaccia di «session replay» — per qualsiasi esecuzione di un agente, visualizzare la trascrizione completa, le chiamate agli strumenti e lo stato intermedio. Indispensabile per il debug.
  • Budget di costo per tenant, per agente e per utente con limiti rigidi.

Langfuse, Helicone, Honeycomb, Datadog APM supportano ora tutti il tracing agent-aware.

Sicurezza, prompt injection ed esfiltrazione dei dati

Il prompt injection è una superficie di attacco reale, non ipotetica. Il modello di minaccia del 2026 assume che qualsiasi contenuto esterno letto dall'agente (email, pagine web, documenti) possa contenere istruzioni iniettate che tentano di esfiltrare dati tramite gli strumenti a cui l'agente ha accesso.

Difese che funzionano:

  • Strumenti a minimo privilegio. Read-only per impostazione predefinita. Le capacità di scrittura richiedono conferma umana esplicita.
  • Allow-list degli strumenti per contesto. Un agente che legge email degli utenti non dovrebbe avere accesso a strumenti di scrittura file o HTTP esterno.
  • Filtro in uscita. Filtro egress sugli output degli strumenti che tornano al modello; bloccare i pattern di esfiltrazione evidenti.
  • Human-in-the-loop per le azioni ad alto impatto. Tutto ciò che è irreversibile (eliminazione, invio, trasferimento) richiede conferma.
  • Isolamento per tenant. Nessun dato cross-tenant nel retrieval. RLS a livello di dati.
  • Audit log. Ogni chiamata agli strumenti registrata con input, output, utente, agente, modello.

Regolamento UE sull'IA — cosa devono fare concretamente le aziende

Gli obblighi generali del Regolamento UE sull'IA si applicano dall'agosto 2026, mentre quelli per i sistemi ad alto rischio dall'agosto 2027. Entro metà 2026, le aziende dovrebbero già avere:

  • Programma di alfabetizzazione AI (Art. 4). Formazione documentata per il personale che utilizza sistemi AI. Si applica a quasi tutte le aziende nell'UE.
  • Inventario dei sistemi AI. Interni e acquisiti. Classificazione per livelli di rischio del Regolamento.
  • Per gli usi ad alto rischio (selezione del personale, credito, istruzione, infrastrutture critiche, forze dell'ordine, identificazione biometrica): valutazione di conformità, sistema di gestione del rischio, governance dei dati, documentazione tecnica, supervisione umana, controlli di accuratezza/robustezza/cybersecurity, monitoraggio post-mercato.
  • Per l'integrazione con GPAI (chiamate a Claude, GPT, Gemini): obblighi come deployer downstream, disclosure dei copyright, accesso al riepilogo dei dati di training.

Per la maggior parte degli agenti di produttività enterprise, gli obblighi sono documentazione, logging e il programma di alfabetizzazione. Per gli usi genuinamente ad alto rischio, pianificare un workstream di conformità di 6–12 settimane. Vedi Conformità al Regolamento UE sull'IA.

Architettura di riferimento

Uno stack di riferimento pragmatico per agenti enterprise nel 2026:

  • Superficie client: bot Slack/Teams, web app, plugin IDE o REST API.
  • API gateway: autenticazione tramite WorkOS o Clerk; rate limit per tenant; propagazione del contesto OpenTelemetry.
  • Orchestratore: state machine LangGraph (Python o TypeScript). Routing del modello per step.
  • Livello strumenti: server MCP per sistema. Un server per integrazione, riutilizzato tra gli agenti.
  • Livello retrieval: LlamaIndex su Postgres (pgvector), Qdrant o Weaviate. Scoping per tenant applicato a livello di indice.
  • Livello modelli: Anthropic API per Claude, OpenAI per GPT-4o/o3, Google Vertex per Gemini, Bedrock per Llama 4, Mistral hosted per residenza EU. Il router vive nell'orchestratore.
  • Pipeline di eval: Braintrust o Langfuse a ogni modifica in CI.
  • Observability: OpenTelemetry → Datadog o Grafana Cloud. Langfuse per le trace a livello di agente.
  • Budget dei costi: per tenant + per utente, con limiti rigidi applicati nell'orchestratore.
  • Conformità: audit log su S3 + Glacier; flussi di dati documentati; programma di alfabetizzazione AI; DPIA per gli usi ad alto rischio.
Enterprise AI engineering team reviewing agent traces
Lo stack si è stabilizzato. La disciplina (evals, observability, ottimizzazione dei costi, Regolamento UE sull'IA) è ciò che ora distingue una demo da un deployment.

FAQ

Quale modello usare per gli agenti AI enterprise nel 2026?

Claude 4.6 Sonnet come motore principale, Opus/o3 per gli step difficili, Gemini 2.5 Pro per contesti lunghi, DeepSeek/Llama 4 per il bulk cost-sensitive. Routing per step.

Cos'è MCP e serve davvero?

Il Model Context Protocol di Anthropic, lo standard di integrazione che ha attecchito. Un server MCP per sistema, riutilizzato su agenti e client. Predefinito per i nuovi progetti.

LangChain, LlamaIndex o DSPy?

LangGraph per lo stato agentivo, LlamaIndex per i casi retrieval-heavy, DSPy per le pipeline ottimizzate. Spesso combinati insieme.

Quanto costa gestire un agente AI enterprise?

$4–18 per postazione al mese con routing + caching; $25–80 senza.

Cosa implica il Regolamento UE sull'IA per gli agenti enterprise?

Alfabetizzazione AI + logging per la maggior parte degli usi; valutazione di conformità completa per gli usi ad alto rischio. Pianificare 6–12 settimane per la conformità ad alto rischio.

Come valutare un agente prima del rilascio?

Da 50 a 500 golden task. Eseguire a ogni modifica. Monitorare tasso di successo, step per successo, costo per successo. Rilasciare solo quando stabile su due run consecutive.

Rilascia un agente enterprise reale

Ingegneri senior che hanno già rilasciato agenti in FinTech, HealthTech, LegalTech e B2B SaaS. Evals, ottimizzazione dei costi e conformità al Regolamento UE sull'IA fin dal primo giorno.

Ultimo aggiornamento: 26 maggio 2026.