Anna Kowalski, YuSMP Group
Anna Kowalski Senior Mobile Engineer, YuSMP Group · funzionalità IA per iOS, Android e cross-platform dal 2015

TL;DR (per i dirigenti di fretta)

  • L’IA on-device è il trend di punta dello sviluppo mobile 2026 per una ragione concreta: rende le funzionalità IA private per impostazione predefinita, istantanee, capaci di funzionare offline e prive di costi API per richiesta.
  • Le piattaforme ora te la forniscono. Apple Intelligence espone Foundation Models on-device a qualsiasi app iOS; Google espone Gemini Nano tramite AICore su Android. Non serve più essere un team di ML per usare un modello locale.
  • Ragiona in termini ibridi, non “o l’uno o l’altro”. Un piccolo modello on-device gestisce l’80% comune e privacy-sensibile — riassunti, risposte rapide, classificazione, trascrizione, oscuramento — e inoltra silenziosamente il 20% difficile a un modello cloud.
  • La parte difficile non è il modello, è la coda dei dispositivi. Un flagship esegue comodamente un modello da 3 miliardi di parametri; un Android di fascia media di tre anni fa no. Il rilevamento del tier del dispositivo e un fallback elegante sono l’architettura, non un optional.
  • Per una funzionalità mirata, prevedere all’incirca 4–8 settimane e 25–60k €. La voce di costo maggiore è il QA su hardware reale. Vedi il nostro servizio di sviluppo app mobile per come lo gestiamo.

Cosa significa davvero “IA on-device” nel 2026

L’IA on-device (chiamata anche edge AI o inferenza locale) significa che il modello gira sul silicio del telefono — il Neural Engine di Apple, l’NPU Hexagon di Qualcomm, il Tensor di Google — anziché su un server che si interroga via rete. Le conseguenze pratiche sono la ragione per cui ogni team di prodotto negli USA e nell’UE se ne sta improvvisamente interessando:

  • I dati non lasciano mai il dispositivo. La foto, il messaggio, la nota vocale o la cartella clinica vengono elaborati localmente. Nulla viene caricato, quindi non c’è nulla da intercettare, registrare o richiedere con un mandato.
  • Funziona offline. Su un aereo, in un tunnel, nel seminterrato di un ospedale — la funzionalità funziona comunque perché il modello è già sul telefono.
  • È istantanea. Senza round-trip di rete, le risposte iniziano in decine di millisecondi, non dopo un secondo di latenza.
  • Non ha costo marginale. Non c’è alcuna fattura API per token. Dieci utenti o dieci milioni di utenti costano lo stesso in inferenza: niente.

Quest’ultimo punto cambia in silenzio l’economia delle funzionalità IA. Le fatture degli LLM cloud crescono linearmente con l’uso; l’inferenza on-device no. Per un’app consumer con milioni di interazioni IA al giorno, spostare il caso comune on-device può trasformare un costo variabile illimitato in zero.

Cosa è cambiato nel 2024–2026

Se il tuo modello mentale è “serve un team di ML per eseguire un modello su un telefono”, è vecchio di due anni. Sono cambiate tre cose.

Primo piano di un system-on-chip mobile e di un'unità di elaborazione neurale su un circuito stampato
Il fattore abilitante è il silicio. Ogni flagship recente integra un’unità di elaborazione neurale dedicata — Apple Neural Engine, Qualcomm Hexagon, Google Tensor — abbastanza veloce da eseguire in tempo reale modelli da diversi miliardi di parametri.

Apple Intelligence ha messo un modello in ogni app iOS

Da quando Apple ha aperto agli sviluppatori terzi il suo framework Foundation Models on-device, qualsiasi app iOS può chiamare un modello di sistema da circa 3 miliardi di parametri con poche righe di Swift — generazione guidata, tool calling e output strutturato inclusi, il tutto eseguito sul Neural Engine. Ottieni un modello locale capace senza dover rilasciare, aggiornare o pagare per uno tuo. Per la maggior parte delle funzionalità del tipo “riassumi questo”, “riscrivi quello”, “estrai questi campi”, questo è ora il punto di partenza predefinito su iOS.

Google ha reso Gemini Nano un servizio di sistema su Android

Sul versante Android, Gemini Nano gira tramite AICore come componente di sistema gestito. Le app richiedono l’inferenza on-device tramite le API ML Kit GenAI — riassunto, correzione di bozze, riscrittura, descrizione di immagini — e il sistema operativo si occupa del modello. Come con Apple, il modello è condiviso dal sistema, quindi non gonfia il tuo APK, ed è mantenuto aggiornato dagli update di piattaforma.

I modelli aperti sono diventati abbastanza piccoli — e i runtime sono diventati buoni

Oltre ai modelli di sistema integrati, un’ondata di piccoli modelli aperti (nella classe 1–4 miliardi, quantizzati a 4 bit) gira ora bene sui telefoni tramite runtime maturi: Core ML e MLX su iOS, LiteRT (il rinominato TensorFlow Lite) e lo stack MediaPipe LLM su Android, e motori cross-platform come ExecuTorch, MLC LLM e llama.cpp. Questi ti permettono di rilasciare il tuo modello fine-tuned quando il modello di sistema non basta — al prezzo di trasportare i pesi e l’ingegneria per tenerli veloci.

On-device vs cloud: il vero compromesso

Questa è la decisione che conta, e non è ideologica. On-device e cloud sono strumenti con compiti diversi.

DimensioneModello on-deviceModello cloud (GPT / Claude / Gemini Pro)
PrivacyI dati non lasciano mai il telefonoDati inviati a un responsabile del trattamento terzo
OfflineFunziona senza connessioneRichiede connettività
LatenzaDecine di ms al primo tokenRound-trip di rete + coda
Costo marginaleZero per richiestaPer token, cresce con l’uso
Tetto di capacità1–4 mld di parametri — buono, non di frontieraRagionamento di frontiera, contesto enorme
Freschezza della conoscenzaCongelata alla data di rilascio del modelloPuò essere aggiornata / basata sul recupero

La risposta onesta per la maggior parte delle app è ibrida: instradare ogni richiesta al tier più economico in grado di gestirla. L’on-device gestisce riassunti, risposte rapide, classificazione, estrazione di entità, trascrizione, oscuramento e ricerca semantica sui dati locali — il lavoro ad alto volume, privacy-sensibile e sensibile alla latenza. Il cloud gestisce la coda lunga che richiede davvero ragionamento di frontiera o conoscenza aggiornata. Progettiamo quel livello di instradamento come parte di prima classe dell’architettura, allo stesso modo in cui progetteremmo un livello di caching — di più sull’ingegneria nel nostro servizio AI, ML & Data.

Lo stack di IA on-device, per piattaforma

Ecco a cosa ricorriamo effettivamente, a seconda del target.

iOS

  • Apple Intelligence Foundation Models — il default per generazione di testo, riassunti, estrazione strutturata e tool use sui dispositivi supportati. Nessun modello da rilasciare.
  • Core ML + MLX — per modelli personalizzati: vision, audio o un LLM fine-tuned che converti ed esegui sul Neural Engine / GPU.
  • Vision, Natural Language, Speech, Sound Analysis — framework first-party maturi per OCR, classificazione, trascrizione on-device e altro, tutto locale.

Android

  • Gemini Nano via AICore + ML Kit GenAI — il percorso gestito predefinito per riassumi / correggi / riscrivi / descrivi-immagine sui dispositivi capaci.
  • LiteRT + MediaPipe LLM Inference — per eseguire i tuoi modelli quantizzati (Gemma e altri) con accelerazione GPU/NNAPI.
  • NNAPI / NPU dei vendor — Qualcomm e altri espongono i propri SDK quando serve spremere l’hardware.

Cross-platform (React Native / Flutter)

  • ExecuTorch (il runtime on-device di PyTorch) e MLC LLM ti danno un unico modello che gira su entrambe le piattaforme.
  • I binding di llama.cpp restano la scelta pragmatica per rilasciare uno specifico modello aperto con pieno controllo.
  • Si fa comunque da ponte verso i framework nativi qui sopra per le migliori prestazioni-per-watt — un tema ricorrente nel nostro confronto React Native vs Flutter: il livello cross-platform è la tua UI, l’IA vive vicino al metallo.

Cosa si può rilasciare oggi

Funzionalità concrete che abbiamo costruito o pianificato on-device, senza dipendenza dal cloud per il percorso principale:

  • Riassunto e risposta rapida — thread lunghi, email, documenti condensati localmente; risposte suggerite generate senza caricare la conversazione.
  • Trascrizione e traduzione offline — note vocali e riunioni trascritte on-device; utile in sanità, ambito legale e lavoro sul campo dove l’audio non deve lasciare il telefono.
  • Oscuramento on-device — rileva e sfoca volti, targhe, numeri di carta e dati personali nelle immagini prima che qualcosa venga condiviso o caricato.
  • Ricerca semantica sui dati personali — cerca le tue note, foto e messaggi per significato, con embedding calcolati e archiviati localmente.
  • Fotocamera smart e acquisizione documenti — classificazione in tempo reale, OCR ed estrazione di campi (scontrini, documenti d’identità, moduli) senza rete.
  • Personalizzazione che resta privata — ranking, suggerimenti e profili on-device che non diventano mai un dossier lato server.
Una persona che usa uno smartphone insieme a un laptop, con i dati che restano sul dispositivo personale
Il punto di forza che gli utenti capiscono: “i tuoi dati restano sul tuo telefono”. Per i prodotti orientati alla privacy — come la VPN consumer che abbiamo costruito, LiMP — non è una funzionalità, è il brand.

Privacy, GDPR ed EU AI Act

È qui che l’IA on-device è più di un trucco prestazionale — è una postura di conformità, ed è esattamente il motivo per cui risuona così fortemente nel mercato europeo.

  • Minimizzazione dei dati GDPR, per costruzione. Se i dati personali vengono elaborati solo sul dispositivo dell’utente e mai trasmessi, si elimina un’intera classe di obblighi: nessun trasferimento transfrontaliero, nessuna garanzia per Paesi terzi, molto meno da conservare, registrare o dichiarare. È uno dei modi più puliti per dimostrare la privacy by design e by default.
  • Nessun responsabile del trattamento terzo per il percorso principale. Inviare il testo dell’utente a un LLM cloud rende quel fornitore un responsabile che devi contrattualizzare, documentare e dichiarare. Tienilo on-device e quella relazione — e il suo rischio — semplicemente non esiste.
  • Il regolamento europeo sull’IA (EU AI Act) si applica comunque. L’on-device non vi esenta. Gli obblighi di trasparenza (dire agli utenti che stanno interagendo con un’IA), le pratiche vietate e le classificazioni ad alto rischio riguardano il caso d’uso, non dove avviene l’inferenza. Ciò che l’on-device elimina è il rischio transfrontaliero e legato ai responsabili, non i vostri obblighi ai sensi dell’AI Act. Abbiamo trattato il quadro nella nostra checklist sull’EU AI Act.

Lo schema pratico: svolgere il lavoro privacy-sensibile on-device e, se si scala verso il cloud, scalare dati oscurati e minimizzati con consenso esplicito — mai il dato grezzo.

Costi, tempi e team

Numeri reali da come pianifichiamo questo lavoro per clienti USA ed europei nel 2026:

  • Una funzionalità on-device mirata (riassunti, risposte rapide, trascrizione offline od oscuramento): ~4–8 settimane, ~25–60k €. Team: 1 mobile engineer con esperienza di ML on-device, supporto ML part-time, QA su una matrice di dispositivi.
  • Un’app AI-first con diverse funzionalità on-device più un livello ibrido di escalation cloud: ~3–5 mesi, pianificato per funzionalità.
  • Il costo dominante è il QA, non il modello. I modelli di sistema integrati sono gratuiti da chiamare; il lavoro consiste nel verificare comportamento, prestazioni e batteria sulla lunga coda dell’hardware Android reale, più il percorso di fallback per i dispositivi non supportati.

Per benchmark completi sull’intero progetto, vedi la nostra guida ai costi di sviluppo app mobile 2026. Il consiglio specifico per l’on-device: prevedere esplicitamente un budget per un laboratorio di test su dispositivi reali e decidere il tier minimo supportato prima di scrivere una riga di codice di inferenza.

Checklist di implementazione

La sequenza che seguiamo quando aggiungiamo IA on-device a un’app mobile:

  1. Definisci il compito. Una frase: “riassumere i thread”, “trascrivere offline”, “oscurare i dati personali”. Le ambizioni IA vaghe sono dove i budget muoiono.
  2. Prova prima il modello di sistema. Apple Intelligence su iOS, Gemini Nano su Android. Se è abbastanza buono, hai quasi finito.
  3. Fissa la soglia minima di dispositivo. Scegli il tier minimo che supporterai on-device e progetta il fallback cloud (o degrado elegante) per tutto ciò che sta sotto.
  4. Scegli il modello solo se serve. Se il modello di sistema non basta, scegli un piccolo modello aperto e quantizzalo a 4 bit; misura dimensione, latenza e batteria, non solo l’accuratezza.
  5. Costruisci il livello di instradamento. On-device prima, escalation cloud per i casi difficili o non aggiornati, con consenso e oscuramento al confine.
  6. Testa su hardware reale. Gli emulatori mentono su prestazioni NPU e batteria. Usa una matrice di dispositivi fisici dal flagship alla fascia media.
  7. Misura batteria e temperature. L’inferenza sostenuta scalda i telefoni. Profilala; limita o raggruppa dove necessario.
  8. Dichiara e ottieni il consenso. Di’ agli utenti quando è coinvolta un’IA e cosa (se qualcosa) lascia il dispositivo — buona UX e igiene rispetto all’AI Act.

Quando l’IA cloud vince ancora

L’on-device è un default, non una religione. Rilasciamo cloud-first quando è vera una di queste condizioni:

  • Ragionamento di frontiera — analisi complesse in più passaggi, coding o giudizi sfumati che un modello da 3 mld non può fare in modo affidabile.
  • Contesto ampio — ragionare su un documento di 200 pagine o una cronologia lunga che non entra in un piccolo modello locale.
  • Conoscenza aggiornata — risposte che devono riflettere dati, prezzi o inventario odierni, tramite recupero o strumenti live.
  • Stato condiviso lato server — quando l’intelligenza riguarda intrinsecamente i dati di altri utenti, non quelli su questo telefono.

L’architettura vincente nel 2026 è ibrida: on-device per il caso comune privato, istantaneo e ad alto volume; cloud per quello pesante e occasionale. Trovare quel confine giusto — insieme al consenso e all’oscuramento su di esso — è la vera ingegneria. È il cuore di come costruiamo app mobile con IA per i clienti in tutti gli USA e l’UE.

FAQ

Che cos’è l’IA on-device in un’app mobile?

Il modello gira sul chip del telefono (Apple Neural Engine, NPU Android) invece che su un server cloud. L’input non lascia mai il dispositivo, funziona offline e non c’è alcuna fattura per richiesta. Nel 2026 è esposto tramite Apple Intelligence su iOS e Gemini Nano su Android, oltre ai modelli aperti via Core ML, LiteRT, ExecuTorch, MLC e llama.cpp.

IA on-device vs IA cloud — quale dovrei usare?

On-device per privacy, offline, latenza e costo marginale zero: riassunti, risposte rapide, classificazione, trascrizione, oscuramento. Cloud per ragionamento di frontiera, contesto ampio o conoscenza aggiornata. La maggior parte delle app in produzione è ibrida — on-device per l’80% comune, cloud per il 20% difficile.

Quanto può essere grande un modello eseguibile su un telefono nel 2026?

Comodamente da 1 a 4 miliardi di parametri a 4 bit su un flagship recente (iPhone 15 Pro+, Pixel 8/9, Galaxy S24/S25). I modelli di sistema integrati sono attorno alla classe dei 3 mld. Gli Android di fascia media puntano modelli più piccoli o ripiegano sul cloud — quindi il rilevamento del tier del dispositivo fa parte del progetto.

L’IA on-device è migliore per il GDPR e l’EU AI Act?

Di solito sì per il GDPR: l’elaborazione interamente on-device riduce nettamente l’esposizione a trasferimenti, responsabili e conservazione — minimizzazione dei dati pulita. Il regolamento europeo sull’IA (EU AI Act) si applica comunque per caso d’uso (trasparenza, regole su pratiche vietate/alto rischio), quindi l’on-device riduce il rischio transfrontaliero ma non vi esenta.

Quanto costa aggiungere l’IA on-device a un’app?

Una funzionalità mirata richiede all’incirca 4–8 settimane e 25–60k € con un team senior, inclusi selezione del modello, un fallback per tier di dispositivo e QA su hardware reale. Il principale fattore di costo è il testing sulla coda dei dispositivi Android, non il modello in sé.

L’IA on-device funziona offline e sui telefoni più vecchi?

Offline: sì, è proprio il punto. Telefoni più vecchi: i flagship degli ultimi 2–3 anni gestiscono modelli da 1–4 mld; i dispositivi più datati e di fascia media richiedono modelli più piccoli o un fallback cloud. Un’implementazione corretta rileva il tier a runtime e instrada di conseguenza.

Come decideremmo per la tua app

Dacci 30 minuti e l’unica funzionalità che hai in mente, e ti diremo se deve stare on-device, nel cloud o suddivisa tra i due — con un costo e una timeline realistici per il tuo team e mercato. Niente slide, niente upsell. Rilasciamo entrambi, e non ci importa quale scegli, purché sia quello giusto.

Ultimo aggiornamento: 2 giugno 2026. Le classi di modelli e i framework riflettono Apple Intelligence Foundation Models, Google Gemini Nano / AICore, Core ML, LiteRT ed ExecuTorch come disponibili a metà 2026. Prestazioni dei dispositivi misurate su iPhone 15 Pro, Pixel 9 e un dispositivo Android di riferimento di fascia media. Metodologia disponibile su richiesta.