Glossaire de l'Intelligence Artificielle

Plus de 100 termes IA expliqués clairement pour les décideurs. Chaque définition répond directement à la question que vous vous posez, sans jargon inutile.

O4 termes

OCR (Optical Character Recognition)

L'OCR est la technologie qui convertit des images de texte (documents scannés, photos) en texte exploitable.

Définition complète

L'OCR (Optical Character Recognition) ou reconnaissance optique de caractères est la technologie permettant de convertir des images contenant du texte (documents scannés, photos, PDF image) en texte numérique éditable et searchable. L'OCR moderne utilise le deep learning pour atteindre des précisions élevées même sur des documents de qualité moyenne. C'est une brique essentielle pour la digitalisation de documents, l'extraction de données de factures, et le traitement automatique de formulaires papier.

Questions fréquentes

Comment l'OCR est-il utilisé dans les chatbots et mailbots ?

L'OCR permet aux chatbots et mailbots de traiter les documents envoyés par les utilisateurs : extraire les données d'une facture jointe, lire un justificatif de domicile, analyser une pièce d'identité pour la vérification KYC, ou traiter une ordonnance médicale. L'OCR transforme l'image en texte, puis le NLP extrait les informations structurées (montants, dates, noms).

Quelle précision attendre de l'OCR moderne ?

Les OCR modernes atteignent 99%+ de précision sur des documents imprimés de bonne qualité. La précision descend à 95-98% sur des documents de qualité moyenne, et 80-90% sur des manuscrits ou documents dégradés. Les erreurs courantes : confusion 0/O, 1/l/I, et caractères spéciaux. Pour les applications critiques (montants financiers), une validation humaine ou règles métier est recommandée.

Quels sont les meilleurs outils OCR pour l'entreprise ?

Les solutions OCR leaders sont : Google Document AI (très performant, cloud), AWS Textract (bien intégré AWS), Azure Document Intelligence (ex Form Recognizer), et Tesseract (open source). Pour des besoins avancés, les solutions spécialisées par type de document (factures : Rossum, ID : Onfido) offrent de meilleurs résultats. Le choix dépend du volume, du type de document, et des contraintes d'hébergement.

Voir aussi :computer-vision extraction-information mailbot

Mailbot Qualification

Articles associés

Pièces jointes mailbot : OCR + LLM vs VLM (méthode 2026)Stack multimodale 2026 : VLM, OCR, STT, TTS, S2S (agents)Machine learning : fondamentaux utiles (2026)

OpenAI

OpenAI est l'entreprise américaine créatrice de GPT et ChatGPT, leader des grands modèles de langage.

Définition complète

OpenAI est une entreprise américaine d'intelligence artificielle fondée en 2015, créatrice des modèles GPT (Generative Pre-trained Transformer) et de ChatGPT. Elle a démocratisé l'accès aux grands modèles de langage via ses APIs, devenant un acteur incontournable de l'IA générative. Les modèles GPT, DALL-E (images), et Whisper (transcription) figurent parmi ses produits phares. OpenAI propose des offres entreprise (ChatGPT Enterprise, API) avec des garanties de confidentialité et de conformité.

Questions fréquentes

Comment utiliser OpenAI en entreprise en toute sécurité ?

Pour un usage entreprise sécurisé : utilisez l'API (pas le ChatGPT gratuit qui entraîne sur vos données), activez l'option de non-utilisation des données pour l'entraînement, ou optez pour ChatGPT Enterprise / Azure OpenAI qui offrent des garanties contractuelles. Vérifiez la localisation des données (Azure propose des régions EU). Pour les données très sensibles, envisagez des modèles on-premise.

Quels sont les tarifs des API OpenAI ?

Les tarifs varient par modèle et évoluent régulièrement à la baisse. Ordre de grandeur : de quelques dollars à plusieurs dizaines de dollars par million de tokens selon le modèle choisi. Les embeddings sont nettement moins chers. Pour un chatbot traitant 10 000 conversations/mois, comptez quelques centaines d'euros. Les coûts dépendent de la longueur des prompts et réponses. Consultez la page de tarification OpenAI pour les prix actuels.

Quelles alternatives à OpenAI existent ?

Les alternatives à OpenAI incluent : Anthropic (Claude) pour la sécurité et les longs contextes, Google (Gemini) pour le multimodal, Mistral AI (français) pour l'open source et la souveraineté, Meta (Llama) en open source gratuit. Pour des cas spécifiques, Cohere (embeddings, RAG) et AI21 (génération). Le choix dépend du cas d'usage, des contraintes de coût, et des exigences de localisation des données.

Voir aussi :gpt llm api chatbot

Articles associés

Modèles IA 2026 : lesquels pour un chatbot B2B ?NLP vs LLM : choisir la techno pour votre chatbot (2026)RAG pour chatbot : guide 2026 (anti-hallucination)

Orchestration IA

L'orchestration IA coordonne plusieurs composants IA (LLM, outils, APIs) pour accomplir des tâches complexes.

Définition complète

L'orchestration IA désigne la coordination de multiples systèmes et composants d'intelligence artificielle pour accomplir des workflows complexes. Un orchestrateur peut enchaîner des appels LLM, des recherches RAG, des appels API, et des actions sur des systèmes, en gérant le flux de données entre eux. Frameworks comme LangChain, LlamaIndex, ou Semantic Kernel facilitent cette orchestration. C'est l'architecture des agents IA qui exécutent des tâches multi-étapes de façon autonome.

Questions fréquentes

Pourquoi l'orchestration IA est-elle nécessaire ?

Un LLM seul ne suffit pas pour les cas d'usage réels : il faut chercher des données (RAG), appeler des APIs (CRM, ERP), exécuter des actions (envoyer un email), et gérer les erreurs. L'orchestration coordonne ces étapes : le LLM décide quoi faire, l'orchestrateur exécute les actions, récupère les résultats, et les renvoie au LLM. C'est le lien entre la capacité du LLM et les systèmes d'entreprise.

Quels outils pour l'orchestration IA ?

Les frameworks populaires sont : LangChain (le plus utilisé, Python/JS), LlamaIndex (optimisé pour le RAG), Semantic Kernel (Microsoft, C#/.NET), Haystack (recherche et RAG), et AutoGen (agents multi-agents Microsoft). Pour la production, des plateformes comme Flowise, Langflow (no-code), ou des solutions managées émergent. Le choix dépend du langage, de la complexité, et de l'équipe.

Quels sont les défis de l'orchestration IA ?

Les défis incluent : la gestion des erreurs (que faire si une API échoue ?), la latence cumulée (chaque étape ajoute du délai), le coût des appels LLM multiples, le debug des chaînes complexes, et la sécurité (le LLM ne doit pas exécuter des actions non autorisées). Une bonne architecture prévoit des fallbacks, des timeouts, et une observabilité des workflows.

Voir aussi :agent-ia rag llm mcp workflow-ia

Agents IA Back-Office

Articles associés

Outils d’agents IA : tool calling, schémas, permissions, MCP Gouvernance IA 2026 : XAI, biais, ROI, human-in-the-loop Architecture d’un agent IA : LLM, outils, mémoire, traces

Overfitting (Surapprentissage)

L'overfitting se produit quand un modèle apprend trop bien les données d'entraînement et généralise mal aux nouvelles données.

Définition complète

L'overfitting (surapprentissage) est un phénomène où un modèle de machine learning mémorise les données d'entraînement au lieu d'apprendre des patterns généralisables. Le modèle performe excellemment sur les données d'entraînement mais échoue sur de nouvelles données. C'est comme un étudiant qui mémorise les réponses du QCM sans comprendre le cours. L'overfitting est un risque majeur en ML, combattu par la régularisation, le dropout, la validation croisée, et l'augmentation de données.

Questions fréquentes

Comment détecter l'overfitting ?

L'overfitting se détecte en comparant les performances sur les données d'entraînement vs les données de test. Si le modèle a 99% d'accuracy en entraînement mais 60% en test, il y a overfitting. Les courbes d'apprentissage révèlent aussi le problème : l'erreur de test commence à remonter alors que l'erreur d'entraînement continue de baisser.

Comment prévenir l'overfitting ?

Les techniques anti-overfitting incluent : augmenter la quantité de données d'entraînement, utiliser la régularisation (L1, L2), appliquer le dropout (désactivation aléatoire de neurones), arrêt précoce (early stopping), validation croisée, et réduire la complexité du modèle. Le data augmentation (créer des variations des données) aide aussi. Le choix dépend du contexte et du type de modèle.

L'overfitting concerne-t-il les LLM ?

Les LLM pré-entraînés ont peu de risque d'overfitting grâce à leur énorme volume de données. Le risque apparaît lors du fine-tuning avec peu d'exemples : le modèle peut sur-spécialiser. Pour le prévenir : utilisez suffisamment d'exemples variés, appliquez la régularisation, et évaluez sur un jeu de test séparé. LoRA réduit naturellement le risque en limitant les paramètres modifiés.

Voir aussi :training machine-learning dataset validation

Articles associés

Machine learning : fondamentaux utiles (2026)Classification vs clustering : guide pratique (2026)

Un terme vous manque ?

Reservez votre diagnostic IA

Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisee.

45 minutes de cadrage
Entierement gratuit
Reponse sous 24h

Réservation

Réservez votre diagnostic IA

Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisée.

45 min · Gratuit · Réponse sous 24h

Voir les disponibilités