TL;DR (pour les dirigeants pressés)
- L'IA embarquée est la tendance phare du développement mobile 2026 pour une raison concrète : elle rend les fonctionnalités IA privées par défaut, instantanées, capables de fonctionner hors ligne et exemptes de coûts d'API par requête.
- Les plateformes la livrent désormais pour vous. Apple Intelligence expose des Foundation Models embarqués à toute application iOS ; Google expose Gemini Nano via AICore sur Android. Vous n'avez plus besoin d'être une équipe ML pour utiliser un modèle local.
- Pensez hybride, pas l'un ou l'autre. Un petit modèle embarqué gère les 80 % de cas courants et sensibles à la vie privée — résumés, réponses intelligentes, classification, transcription, anonymisation — et escalade discrètement les 20 % difficiles vers un modèle cloud.
- Le plus difficile n'est pas le modèle, c'est la queue d'appareils. Un haut de gamme exécute confortablement un modèle de 3 milliards de paramètres ; un Android milieu de gamme de trois ans, non. La détection du niveau d'appareil et un repli progressif constituent l'architecture, pas un simple bonus.
- Pour une fonctionnalité ciblée, comptez environ 4 à 8 semaines et 25 000 à 60 000 €. Le poste de coût le plus important est la QA sur du matériel réel. Voyez notre service de développement d'applications mobiles pour notre façon de procéder.
Ce que signifie réellement « IA embarquée » en 2026
L'IA embarquée (aussi appelée edge AI ou inférence locale) signifie que le modèle s'exécute sur le silicium du téléphone — le Neural Engine d'Apple, le NPU Hexagon de Qualcomm, le Tensor de Google — plutôt que sur un serveur que vous appelez via le réseau. Les conséquences pratiques expliquent pourquoi chaque équipe produit aux États-Unis et dans l'UE s'y intéresse soudainement :
- Les données ne quittent jamais l'appareil. La photo, le message, la note vocale ou le dossier médical est traité localement. Rien n'est téléversé, il n'y a donc rien à intercepter, à journaliser ou à réquisitionner.
- Cela fonctionne hors ligne. Dans un avion, dans un tunnel, au sous-sol d'un hôpital — la fonctionnalité marche encore car le modèle est déjà sur le téléphone.
- C'est instantané. Sans aller-retour réseau, les réponses commencent en dizaines de millisecondes, et non après une seconde de latence.
- Cela n'a aucun coût marginal. Il n'y a pas de facture d'API par jeton. Dix utilisateurs ou dix millions d'utilisateurs coûtent la même chose en inférence : rien.
Ce dernier point modifie discrètement l'économie des fonctionnalités IA. Les factures des LLM cloud évoluent linéairement avec l'usage ; l'inférence embarquée non. Pour une application grand public avec des millions d'interactions IA quotidiennes, déplacer le cas courant sur l'appareil peut transformer un coût variable illimité en zéro.
Ce qui a changé entre 2024 et 2026
Si votre modèle mental est « il faut une équipe ML pour faire tourner un modèle sur un téléphone », il date de deux ans. Trois choses ont changé.
Apple Intelligence a mis un modèle dans chaque application iOS
Depuis qu'Apple a ouvert son framework Foundation Models embarqué aux développeurs tiers, toute application iOS peut appeler un modèle système d'environ 3 milliards de paramètres avec quelques lignes de Swift — génération guidée, appel d'outils et sortie structurée inclus, le tout s'exécutant sur le Neural Engine. Vous obtenez un modèle local performant sans en livrer, en mettre à jour ou en payer un vous-même. Pour la plupart des fonctionnalités « résume ceci », « réécris cela », « extrais ces champs », c'est désormais le point de départ par défaut sur iOS.
Google a fait de Gemini Nano un service système sur Android
Côté Android, Gemini Nano s'exécute via AICore en tant que composant système managé. Les applications demandent l'inférence embarquée via les API ML Kit GenAI — résumé, relecture, réécriture, description d'image — et le système d'exploitation gère le modèle. Comme chez Apple, le modèle est partagé par le système, il n'alourdit donc pas votre APK et reste à jour grâce aux mises à jour de la plateforme.
Les modèles ouverts sont devenus assez petits — et les runtimes sont devenus bons
Au-delà des modèles système intégrés, une vague de petits modèles ouverts (dans la classe des 1 à 4 milliards de paramètres, quantifiés en 4 bits) s'exécute désormais bien sur les téléphones grâce à des runtimes matures : Core ML et MLX sur iOS, LiteRT (l'ancien TensorFlow Lite renommé) et la stack LLM MediaPipe sur Android, et des moteurs multiplateformes comme ExecuTorch, MLC LLM et llama.cpp. Ils vous permettent de livrer votre propre modèle affiné quand le modèle système ne suffit pas — au prix du portage des poids et de l'ingénierie pour les garder rapides.
Embarqué vs cloud : le vrai compromis
C'est la décision qui compte, et elle n'est pas idéologique. L'embarqué et le cloud sont des outils aux fonctions différentes.
| Dimension | Modèle embarqué | Modèle cloud (GPT / Claude / Gemini Pro) |
|---|---|---|
| Confidentialité | Les données ne quittent jamais le téléphone | Données envoyées à un sous-traitant tiers |
| Hors ligne | Fonctionne sans connexion | Nécessite une connectivité |
| Latence | Dizaines de ms jusqu'au premier jeton | Aller-retour réseau + file d'attente |
| Coût marginal | Nul par requête | Par jeton, évolue avec l'usage |
| Plafond de capacité | 1 à 4 milliards de paramètres — bon, pas de pointe | Raisonnement de pointe, contexte immense |
| Fraîcheur des connaissances | Figée à la date de livraison du modèle | Peut être à jour / appuyée par récupération |
La réponse honnête pour la plupart des applications est hybride : router chaque requête vers le niveau le moins coûteux capable de la traiter. L'embarqué gère le résumé, les réponses intelligentes, la classification, l'extraction d'entités, la transcription, l'anonymisation et la recherche sémantique sur des données locales — le travail à fort volume, sensible à la vie privée et à la latence. Le cloud gère la longue traîne qui nécessite vraiment un raisonnement de pointe ou des connaissances fraîches. Nous concevons cette couche de routage comme une partie de premier plan de l'architecture, exactement comme nous concevrions une couche de cache — plus de détails sur l'ingénierie dans notre service IA, ML & Données.
La stack d'IA embarquée, par plateforme
Voici ce vers quoi nous nous tournons réellement, selon la cible.
iOS
- Apple Intelligence Foundation Models — le choix par défaut pour la génération de texte, le résumé, l'extraction structurée et l'usage d'outils sur les appareils compatibles. Aucun modèle à livrer.
- Core ML + MLX — pour les modèles personnalisés : vision, audio, ou un LLM affiné que vous convertissez et exécutez sur le Neural Engine / GPU.
- Vision, Natural Language, Speech, Sound Analysis — des frameworks first-party matures pour l'OCR, la classification, la transcription embarquée et plus encore, tous en local.
Android
- Gemini Nano via AICore + ML Kit GenAI — le chemin managé par défaut pour résumer / relire / réécrire / décrire une image sur les appareils compatibles.
- LiteRT + MediaPipe LLM Inference — pour exécuter vos propres modèles quantifiés (Gemma et autres) avec accélération GPU/NNAPI.
- NNAPI / NPU des fournisseurs — Qualcomm et d'autres exposent leurs propres SDK quand vous devez exploiter au maximum le matériel.
Multiplateforme (React Native / Flutter)
- ExecuTorch (le runtime embarqué de PyTorch) et MLC LLM vous donnent un modèle unique qui s'exécute sur les deux plateformes.
- Les bindings llama.cpp restent le choix pragmatique pour livrer un modèle ouvert spécifique avec un contrôle total.
- Vous faites toujours le pont vers les frameworks natifs ci-dessus pour la meilleure performance par watt — un thème récurrent dans notre comparaison React Native vs Flutter : la couche multiplateforme est votre interface, l'IA vit au plus près du matériel.
Ce que vous pouvez réellement livrer aujourd'hui
Des fonctionnalités concrètes que nous avons construites ou cadrées en embarqué, sans dépendance cloud pour le chemin principal :
- Résumé & réponse intelligente — longs fils de discussion, e-mails, documents condensés localement ; réponses suggérées générées sans téléverser la conversation.
- Transcription & traduction hors ligne — notes vocales et réunions transcrites sur l'appareil ; utile dans la santé, le juridique et le travail de terrain où l'audio ne doit pas quitter le téléphone.
- Anonymisation embarquée — détecter et flouter visages, plaques d'immatriculation, numéros de carte et données personnelles dans les images avant tout partage ou téléversement.
- Recherche sémantique sur les données personnelles — rechercher par le sens dans vos propres notes, photos et messages, avec des embeddings calculés et stockés localement.
- Caméra intelligente & capture de documents — classification, OCR et extraction de champs en temps réel (reçus, pièces d'identité, formulaires) sans réseau.
- Une personnalisation qui reste privée — classement, suggestions et profils embarqués qui ne deviennent jamais un dossier côté serveur.
Confidentialité, RGPD et règlement européen sur l'IA
C'est là que l'IA embarquée dépasse l'astuce de performance — c'est une posture de conformité, ce qui explique précisément pourquoi elle résonne si fortement sur le marché européen.
- Minimisation des données RGPD, par conception. Si les données personnelles ne sont traitées que sur l'appareil de l'utilisateur et jamais transmises, vous supprimez toute une catégorie d'obligations : pas de transfert transfrontalier, pas de garanties pour pays tiers, bien moins à conserver, journaliser ou divulguer. C'est l'une des manières les plus propres de démontrer la protection de la vie privée dès la conception et par défaut.
- Aucun sous-traitant tiers pour le chemin principal. Envoyer le texte d'un utilisateur à un LLM cloud fait de ce fournisseur un sous-traitant que vous devez contractualiser, documenter et divulguer. Gardez-le sur l'appareil et cette relation — ainsi que son risque — n'existe tout simplement pas.
- Le règlement européen sur l'IA (EU AI Act) s'applique toujours. L'embarqué ne vous exempte pas. Les obligations de transparence (informer les utilisateurs qu'ils interagissent avec une IA), les pratiques interdites et les classifications à haut risque concernent le cas d'usage, pas l'endroit où s'exécute l'inférence. Ce que l'embarqué supprime, c'est le risque transfrontalier et lié aux sous-traitants, pas vos obligations au titre de l'AI Act. Nous avons abordé ce cadre dans notre liste de vérification du règlement européen sur l'IA.
Le schéma pratique : faire le travail sensible à la vie privée sur l'appareil et, si vous escaladez vers le cloud, escalader des données anonymisées et minimisées avec un consentement explicite — jamais l'enregistrement brut.
Coût, calendrier et équipe
Des chiffres réels issus de la façon dont nous cadrons ce travail pour les clients US et UE en 2026 :
- Une fonctionnalité embarquée ciblée (résumé, réponses intelligentes, transcription hors ligne ou anonymisation) : ~4 à 8 semaines, ~25 000 à 60 000 €. Équipe : 1 ingénieur mobile avec une expérience du ML embarqué, un support ML à temps partiel, une QA sur une matrice d'appareils.
- Une application IA-first avec plusieurs fonctionnalités embarquées plus une couche hybride d'escalade cloud : ~3 à 5 mois, cadré par fonctionnalité.
- Le coût dominant est la QA, pas le modèle. Les modèles système intégrés sont gratuits à appeler ; le travail consiste à vérifier le comportement, la performance et la batterie sur la longue traîne du matériel Android réel, plus le chemin de repli pour les appareils non compatibles.
Pour des benchmarks complets sur l'ensemble du build, voyez notre guide 2026 du coût de développement d'une application mobile. Le conseil spécifique à l'embarqué : budgétez explicitement un laboratoire de tests sur appareils réels et décidez de votre niveau minimum supporté avant d'écrire la moindre ligne de code d'inférence.
Liste de vérification de mise en œuvre
La séquence que nous suivons pour ajouter de l'IA embarquée à une application mobile :
- Définissez la tâche. Une phrase : « résumer les fils de discussion », « transcrire hors ligne », « anonymiser les données personnelles ». Les ambitions IA floues sont là où les budgets meurent.
- Essayez d'abord le modèle système. Apple Intelligence sur iOS, Gemini Nano sur Android. S'il suffit, vous avez presque terminé.
- Fixez le plancher d'appareils. Choisissez le niveau minimum que vous supporterez en embarqué et concevez le repli cloud (ou la dégradation progressive) pour tout ce qui se situe en dessous.
- Ne choisissez le modèle que si nécessaire. Si le modèle système est insuffisant, choisissez un petit modèle ouvert et quantifiez en 4 bits ; mesurez la taille, la latence et la batterie, pas seulement la précision.
- Construisez la couche de routage. Embarqué d'abord, escalade cloud pour les cas difficiles ou obsolètes, avec consentement et anonymisation à la frontière.
- Testez sur du matériel réel. Les émulateurs mentent sur les performances NPU et la batterie. Utilisez une matrice d'appareils physiques allant du haut de gamme au milieu de gamme.
- Mesurez la batterie et la dissipation thermique. Une inférence soutenue chauffe les téléphones. Profilez-la ; bridez ou regroupez là où c'est nécessaire.
- Informez et recueillez le consentement. Indiquez aux utilisateurs quand l'IA intervient et ce qui (le cas échéant) quitte l'appareil — à la fois bonne UX et bonne hygiène vis-à-vis de l'AI Act.
Quand l'IA cloud l'emporte encore
L'embarqué est un choix par défaut, pas une religion. Nous livrons en cloud-first lorsque l'une de ces conditions est vraie :
- Raisonnement de pointe — analyse complexe en plusieurs étapes, code, ou jugement nuancé qu'un modèle de 3 milliards de paramètres ne peut pas faire de manière fiable.
- Grand contexte — raisonner sur un document de 200 pages ou un long historique qui ne tient pas dans un petit modèle local.
- Connaissances fraîches — des réponses qui doivent refléter les données, les prix ou les stocks du jour, via récupération ou outils en direct.
- État partagé côté serveur — quand l'intelligence porte intrinsèquement sur les données d'autres utilisateurs, et non sur celles de ce téléphone.
L'architecture gagnante en 2026 est hybride : embarqué pour le cas courant privé, instantané et à fort volume ; cloud pour le cas lourd et occasionnel. Bien placer cette frontière — et y poser le consentement et l'anonymisation — voilà la véritable ingénierie. C'est le cœur de notre façon de construire des applications mobiles avec de l'IA pour des clients aux États-Unis et dans l'UE.
FAQ
Qu'est-ce que l'IA embarquée dans une application mobile ?
Le modèle s'exécute sur la propre puce du téléphone (Apple Neural Engine, NPU Android) au lieu d'un serveur cloud. L'entrée ne quitte jamais l'appareil, cela fonctionne hors ligne et il n'y a pas de facture par requête. En 2026, c'est exposé via Apple Intelligence sur iOS et Gemini Nano sur Android, ainsi que par des modèles ouverts via Core ML, LiteRT, ExecuTorch, MLC et llama.cpp.
IA embarquée vs IA cloud — laquelle utiliser ?
L'embarqué pour la confidentialité, le hors ligne, la latence et le coût marginal nul : résumés, réponses intelligentes, classification, transcription, anonymisation. Le cloud pour le raisonnement de pointe, le grand contexte ou les connaissances fraîches. La plupart des applications de production sont hybrides — embarqué pour les 80 % de cas courants, cloud pour les 20 % difficiles.
Quelle taille de modèle un téléphone peut-il exécuter en 2026 ?
Confortablement 1 à 4 milliards de paramètres en 4 bits sur un haut de gamme récent (iPhone 15 Pro+, Pixel 8/9, Galaxy S24/S25). Les modèles système intégrés se situent autour de la classe des 3 milliards de paramètres. Android milieu de gamme vise des modèles plus petits ou bascule vers le cloud — la détection du niveau d'appareil fait donc partie de la conception.
L'IA embarquée est-elle meilleure pour le RGPD et le règlement européen sur l'IA ?
En général oui pour le RGPD : un traitement entièrement embarqué réduit fortement l'exposition au transfert, au sous-traitant et à la conservation — une minimisation des données propre. Le règlement européen sur l'IA (EU AI Act) s'applique toujours selon le cas d'usage (transparence, règles interdites/à haut risque), donc l'embarqué réduit le risque transfrontalier mais ne vous exempte pas.
Combien coûte l'ajout d'une IA embarquée à une application ?
Une fonctionnalité ciblée représente environ 4 à 8 semaines et 25 000 à 60 000 € avec une équipe senior, incluant la sélection du modèle, un repli par niveau d'appareil et la QA sur du matériel réel. Le principal poste de coût est le test sur la queue d'appareils Android, pas le modèle lui-même.
L'IA embarquée fonctionne-t-elle hors ligne et sur les téléphones plus anciens ?
Hors ligne : oui, c'est tout l'intérêt. Téléphones plus anciens : les haut de gamme des 2 à 3 dernières années gèrent les modèles de 1 à 4 milliards de paramètres ; les appareils plus anciens et milieu de gamme ont besoin de modèles plus petits ou d'un repli cloud. Un build correct détecte le niveau à l'exécution et route en conséquence.
Comment nous déciderions pour votre application
Accordez-nous 30 minutes et la seule fonctionnalité que vous avez en tête, et nous vous dirons si elle relève de l'embarqué, du cloud ou d'un partage entre les deux — avec un coût et un calendrier réalistes pour votre équipe et votre marché. Pas de slides, pas de vente additionnelle. Nous livrons les deux, et le choix nous importe peu, tant que c'est le bon.
Dernière mise à jour le 2 juin 2026. Les classes de modèles et les frameworks reflètent Apple Intelligence Foundation Models, Google Gemini Nano / AICore, Core ML, LiteRT et ExecuTorch tels que disponibles mi-2026. Performances des appareils mesurées sur iPhone 15 Pro, Pixel 9 et un appareil Android de référence milieu de gamme. Méthodologie disponible sur demande.


