Glossaire de l'Intelligence Artificielle

Plus de 100 termes IA expliqués clairement pour les décideurs. Chaque définition répond directement à la question que vous vous posez, sans jargon inutile.

T6 termes

Temperature

La température contrôle le niveau de créativité et d'aléatoire dans les réponses d'un LLM.

Définition complète

La température est un hyperparamètre qui contrôle le caractère aléatoire des réponses d'un LLM. Une température basse (0-0.3) produit des réponses déterministes et conservatrices, idéales pour les tâches factuelles. Une température haute (0.7-1.0) introduit plus de variabilité et de créativité, utile pour la génération créative. À température 0, le modèle choisit toujours le token le plus probable ; à température élevée, il explore des options moins probables.

Questions fréquentes

Quelle température utiliser pour un chatbot d'entreprise ?

Pour un chatbot d'entreprise, une température basse (0.1-0.3) est généralement recommandée : elle produit des réponses cohérentes, factuelles, et prévisibles. Évitez la température 0 stricte qui peut donner des réponses trop rigides. Pour des cas créatifs (suggestions de produits, reformulations), vous pouvez monter à 0.5-0.7. Testez sur vos cas d'usage réels pour trouver le bon équilibre.

Température et top_p : quelle différence ?

Température et top_p contrôlent tous deux l'aléatoire mais différemment. La température modifie les probabilités de tous les tokens. Top_p (nucleus sampling) ne considère que les tokens dont la probabilité cumulée atteint p (ex: 0.9 = les tokens qui représentent 90% de la probabilité). En pratique, on règle l'un ou l'autre, pas les deux. Top_p est plus prévisible, température plus intuitive.

Une température élevée augmente-t-elle les hallucinations ?

Oui, une température élevée peut augmenter les hallucinations car le modèle explore des prédictions moins probables, potentiellement incorrectes. Pour les applications où la factualité est critique, gardez une température basse. Le RAG avec température basse est la combinaison recommandée pour minimiser les hallucinations tout en permettant des réponses naturelles.

Voir aussi :llm prompt inference hyperparametre

Articles associés

Prompt engineering chatbot : méthode B2B (2026)Modèles IA 2026 : lesquels pour un chatbot B2B ?RAG pour chatbot : guide 2026 (anti-hallucination)

Tokenisation

La tokenisation découpe le texte en unités (tokens) que le modèle de langage peut traiter.

Définition complète

La tokenisation est le processus de découpage d'un texte en unités élémentaires appelées tokens. Pour les LLM, ce ne sont pas toujours des mots : les mots courants forment un token, les mots rares sont découpés en sous-parties. L'algorithme le plus utilisé est BPE (Byte-Pair Encoding). La tokenisation détermine comment le modèle "voit" le texte et impacte les coûts (facturation au token) et les limites de contexte. Un texte français utilise généralement plus de tokens qu'un texte anglais équivalent.

Questions fréquentes

Pourquoi le français utilise-t-il plus de tokens que l'anglais ?

Les tokenizers sont souvent entraînés sur des corpus à dominante anglaise. Les mots anglais courants forment un seul token, tandis que les mots français peuvent être découpés. Exemple : "aujourd'hui" = 2-3 tokens. De plus, les accents et caractères spéciaux peuvent consommer des tokens supplémentaires. En moyenne, le français utilise 20-40% plus de tokens que l'anglais pour un contenu équivalent.

Comment estimer le nombre de tokens d'un texte ?

Règle générale : 1 token ≈ 4 caractères anglais, 3 caractères français, ou 0.75 mot. Des outils précis existent : tiktoken (OpenAI, en ligne ou Python), les tokenizers de Hugging Face. Pour un devis précis, utilisez le tokenizer du modèle cible car chaque modèle a son propre vocabulaire. Les limites de contexte sont en tokens, pas en mots.

La tokenisation impacte-t-elle la qualité des réponses ?

Oui, marginalement. Les mots rares découpés en sous-tokens sont moins bien représentés que les mots fréquents. Les termes techniques très spécifiques peuvent être mal compris. Cependant, les LLM modernes gèrent bien ces cas. L'impact principal est sur le coût et la limite de contexte : un vocabulaire métier dense consomme plus de tokens, laissant moins de place pour le contexte.

Voir aussi :jeton llm preprocessing nlp

Articles associés

Embeddings & vector DB : base d'un chatbot RAG (2026)Modèles IA 2026 : lesquels pour un chatbot B2B ?RAG pour chatbot : guide 2026 (anti-hallucination)

Training (Entraînement)

L'entraînement est le processus par lequel un modèle IA apprend à partir de données pour améliorer ses performances.

Définition complète

L'entraînement (training) est la phase où un modèle de machine learning ajuste ses paramètres internes en analysant des données d'exemple. Le modèle apprend à minimiser les erreurs entre ses prédictions et les résultats attendus. Pour les LLM, l'entraînement initial (pre-training) utilise des milliards de textes. Le fine-tuning affine ensuite sur des données spécifiques. L'entraînement est la phase la plus coûteuse en ressources et en données.

Questions fréquentes

Combien de temps faut-il pour entraîner un modèle IA ?

La durée varie énormément : quelques minutes pour un classifieur simple, des heures pour un modèle de taille moyenne sur GPU, des semaines à mois pour les grands LLM sur des clusters de milliers de GPU. les plus grands LLM nécessitent des mois d'entraînement. En entreprise, le fine-tuning d'un LLM existant prend typiquement quelques heures à quelques jours.

Quelle est la différence entre pre-training et fine-tuning ?

Le pre-training est l'entraînement initial sur de vastes données générales, créant un modèle de base. Le fine-tuning adapte ce modèle pré-entraîné à une tâche ou domaine spécifique avec des données ciblées. Le pre-training est coûteux et rare, le fine-tuning est accessible aux entreprises. Analogie : le pre-training donne une éducation générale, le fine-tuning enseigne un métier.

Comment savoir si un modèle est bien entraîné ?

Un modèle bien entraîné montre de bonnes performances sur des données qu'il n'a jamais vues (jeu de test). Les métriques varient selon la tâche : accuracy pour la classification, BLEU/ROUGE pour la génération. Il faut vérifier l'absence d'overfitting (le modèle mémorise au lieu d'apprendre) et tester sur des cas réels. Le suivi des courbes de loss pendant l'entraînement révèle la convergence.

Voir aussi :entrainement fine-tuning pre-training dataset overfitting

Articles associés

Machine learning : fondamentaux utiles (2026)Classification vs clustering : guide pratique (2026)

Transformer

Le Transformer est l'architecture de réseau de neurones derrière les LLM modernes comme GPT et Claude.

Définition complète

Le Transformer est une architecture de réseau de neurones introduite en 2017 ("Attention Is All You Need") qui a révolutionné le traitement du langage naturel. Sa caractéristique clé est le mécanisme d'attention qui permet de modéliser les relations entre tous les mots d'une phrase, quelle que soit leur distance. Les Transformers sont massivement parallélisables, permettant l'entraînement sur d'énormes corpus. GPT, BERT, Claude, Llama, et la plupart des LLM modernes sont basés sur cette architecture.

Questions fréquentes

Pourquoi le Transformer a-t-il révolutionné le NLP ?

Avant le Transformer, les modèles RNN/LSTM traitaient le texte séquentiellement, ce qui limitait le parallélisme et la capacité à capturer les dépendances longues. Le mécanisme d'attention du Transformer permet de relier directement des mots distants ("Le chat que j'ai vu hier... dort"). La parallélisation massive permet l'entraînement sur des milliards de mots, menant aux LLM actuels.

Comment fonctionne le mécanisme d'attention ?

L'attention calcule, pour chaque mot, l'importance de tous les autres mots du contexte. Chaque mot génère trois vecteurs : Query (ce que je cherche), Key (ce que je représente), Value (ma contribution). Le score d'attention = Query × Key, normalisé, puis multiplié par Value. Cela permet au modèle de "regarder" différents endroits du texte selon le besoin. Le multi-head attention répète ce processus plusieurs fois en parallèle.

Quelles sont les limitations du Transformer ?

Les Transformers ont des limitations : la mémoire croît quadratiquement avec la longueur du texte (coût d'attention), ce qui limite le contexte. Les fenêtres de 128K tokens des modèles récents nécessitent des optimisations (FlashAttention, sparse attention). Ils sont aussi très gourmands en calcul et en données d'entraînement. Des architectures alternatives émergent (State Space Models, Mamba) pour adresser ces limites.

Voir aussi :llm gpt neural-network deep-learning attention

Articles associés

Modèles IA 2026 : lesquels pour un chatbot B2B ?NLP vs LLM : choisir la techno pour votre chatbot (2026)RAG pour chatbot : guide 2026 (anti-hallucination)

TTS (Text-to-Speech)

Le TTS convertit le texte écrit en parole audio synthétisée.

Définition complète

Le TTS (Text-to-Speech) ou synthèse vocale est la technologie qui convertit du texte écrit en parole audio. Les systèmes TTS modernes utilisent le deep learning pour produire une voix naturelle, avec intonation et émotion. C'est la dernière étape des callbots : après que le LLM a généré la réponse textuelle, le TTS la vocalise pour l'appelant. Les leaders incluent ElevenLabs, Amazon Polly, Google Cloud TTS, et Azure Speech. La qualité des voix neurales approche celle de la voix humaine.

Questions fréquentes

Comment le TTS est-il utilisé dans les callbots ?

Le TTS est l'étape finale du pipeline callbot : il convertit la réponse textuelle générée par le LLM en audio que l'appelant entend. La voix, le débit, et l'intonation peuvent être personnalisés. Le streaming TTS (génération au fil de l'eau) réduit la latence. Les callbots avancés ajustent le style (plus empathique si le client est frustré) et gèrent la prononciation des termes métier.

Comment choisir une voix TTS pour son entreprise ?

Le choix de voix TTS dépend de : l'image de marque (dynamique, rassurante, professionnelle), le public cible (âge, contexte), la langue et l'accent souhaités (français neutre, régional), et la disponibilité multilingue si nécessaire. Testez plusieurs voix sur des scripts réels et faites valider par des utilisateurs. La prononciation du vocabulaire métier est un critère important souvent négligé.

Peut-on cloner une voix avec le TTS ?

Oui, les technologies de voice cloning (ElevenLabs, Play.ht) permettent de créer une voix synthétique à partir d'échantillons audio d'une personne réelle. Cela permet d'utiliser la voix d'un porte-parole de l'entreprise ou de maintenir une cohérence vocale. Attention aux aspects légaux : le consentement de la personne clonée et les règles anti-fraude sont essentiels. Certaines juridictions régulent spécifiquement les deepfakes vocaux.

Voir aussi :speech-to-text callbot voicebot asr

Callbot Relation Client

Articles associés

Stack callbot 2026 : LLM, STT, TTS, Speech-to-Speech Callbot multilingue : accents et code-switching Chatbot IA : le guide entreprise (2026)

Transfer Learning

Le transfer learning réutilise un modèle entraîné sur une tâche pour l'adapter à une nouvelle tâche similaire.

Définition complète

Le transfer learning (apprentissage par transfert) est une technique où un modèle entraîné sur une tâche est réutilisé comme point de départ pour une autre tâche. Au lieu de partir de zéro, on exploite les connaissances déjà acquises. C'est le principe du fine-tuning des LLM : prendre GPT ou BERT (entraînés sur des tâches génériques) et les adapter à un domaine spécifique. Le transfer learning réduit drastiquement les besoins en données et en temps d'entraînement.

Questions fréquentes

Pourquoi le transfer learning est-il si puissant ?

Le transfer learning exploite le fait que les couches inférieures des réseaux de neurones apprennent des représentations génériques (bords dans les images, structures grammaticales dans le texte). Ces représentations sont utiles pour de nombreuses tâches. Seules les couches supérieures, spécifiques à la tâche, doivent être ré-entraînées. Cela permet d'obtenir de bons résultats avec peu de données spécifiques.

Quand utiliser le transfer learning vs entraîner from scratch ?

Utilisez le transfer learning (quasi-toujours recommandé) quand : vous avez peu de données, votre tâche est similaire à celle du modèle source, et vous voulez des résultats rapides. Entraînez from scratch (rare) seulement si : votre domaine est très différent (données médicales très spécifiques, nouvelle langue peu représentée), vous avez énormément de données, et les performances du transfer learning ne suffisent pas.

Le transfer learning fonctionne-t-il entre domaines différents ?

Le transfer learning fonctionne mieux quand les domaines sont proches. Transférer de texte général vers texte juridique fonctionne bien. Transférer d'images vers du texte est plus difficile (les représentations sont différentes). Cependant, même des transferts inter-domaines peuvent aider en fournissant une meilleure initialisation que l'aléatoire. Les modèles multimodaux (texte + image) exploitent cette idée.

Voir aussi :fine-tuning pre-training foundation-model llm

Articles associés

Machine learning : fondamentaux utiles (2026)Classification vs clustering : guide pratique (2026)

Un terme vous manque ?

Reservez votre diagnostic IA

Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisee.

45 minutes de cadrage
Entierement gratuit
Reponse sous 24h

Réservation

Réservez votre diagnostic IA

Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisée.

45 min · Gratuit · Réponse sous 24h

Voir les disponibilités