Plus de 100 termes IA expliqués clairement pour les décideurs. Chaque définition répond directement à la question que vous vous posez, sans jargon inutile.
La température contrôle le niveau de créativité et d'aléatoire dans les réponses d'un LLM.
La température est un hyperparamètre qui contrôle le caractère aléatoire des réponses d'un LLM. Une température basse (0-0.3) produit des réponses déterministes et conservatrices, idéales pour les tâches factuelles. Une température haute (0.7-1.0) introduit plus de variabilité et de créativité, utile pour la génération créative. À température 0, le modèle choisit toujours le token le plus probable ; à température élevée, il explore des options moins probables.
Pour un chatbot d'entreprise, une température basse (0.1-0.3) est généralement recommandée : elle produit des réponses cohérentes, factuelles, et prévisibles. Évitez la température 0 stricte qui peut donner des réponses trop rigides. Pour des cas créatifs (suggestions de produits, reformulations), vous pouvez monter à 0.5-0.7. Testez sur vos cas d'usage réels pour trouver le bon équilibre.
Température et top_p contrôlent tous deux l'aléatoire mais différemment. La température modifie les probabilités de tous les tokens. Top_p (nucleus sampling) ne considère que les tokens dont la probabilité cumulée atteint p (ex: 0.9 = les tokens qui représentent 90% de la probabilité). En pratique, on règle l'un ou l'autre, pas les deux. Top_p est plus prévisible, température plus intuitive.
Oui, une température élevée peut augmenter les hallucinations car le modèle explore des prédictions moins probables, potentiellement incorrectes. Pour les applications où la factualité est critique, gardez une température basse. Le RAG avec température basse est la combinaison recommandée pour minimiser les hallucinations tout en permettant des réponses naturelles.
La tokenisation découpe le texte en unités (tokens) que le modèle de langage peut traiter.
La tokenisation est le processus de découpage d'un texte en unités élémentaires appelées tokens. Pour les LLM, ce ne sont pas toujours des mots : les mots courants forment un token, les mots rares sont découpés en sous-parties. L'algorithme le plus utilisé est BPE (Byte-Pair Encoding). La tokenisation détermine comment le modèle "voit" le texte et impacte les coûts (facturation au token) et les limites de contexte. Un texte français utilise généralement plus de tokens qu'un texte anglais équivalent.
Les tokenizers sont souvent entraînés sur des corpus à dominante anglaise. Les mots anglais courants forment un seul token, tandis que les mots français peuvent être découpés. Exemple : "aujourd'hui" = 2-3 tokens. De plus, les accents et caractères spéciaux peuvent consommer des tokens supplémentaires. En moyenne, le français utilise 20-40% plus de tokens que l'anglais pour un contenu équivalent.
Règle générale : 1 token ≈ 4 caractères anglais, 3 caractères français, ou 0.75 mot. Des outils précis existent : tiktoken (OpenAI, en ligne ou Python), les tokenizers de Hugging Face. Pour un devis précis, utilisez le tokenizer du modèle cible car chaque modèle a son propre vocabulaire. Les limites de contexte sont en tokens, pas en mots.
Oui, marginalement. Les mots rares découpés en sous-tokens sont moins bien représentés que les mots fréquents. Les termes techniques très spécifiques peuvent être mal compris. Cependant, les LLM modernes gèrent bien ces cas. L'impact principal est sur le coût et la limite de contexte : un vocabulaire métier dense consomme plus de tokens, laissant moins de place pour le contexte.
L'entraînement est le processus par lequel un modèle IA apprend à partir de données pour améliorer ses performances.
L'entraînement (training) est la phase où un modèle de machine learning ajuste ses paramètres internes en analysant des données d'exemple. Le modèle apprend à minimiser les erreurs entre ses prédictions et les résultats attendus. Pour les LLM, l'entraînement initial (pre-training) utilise des milliards de textes. Le fine-tuning affine ensuite sur des données spécifiques. L'entraînement est la phase la plus coûteuse en ressources et en données.
La durée varie énormément : quelques minutes pour un classifieur simple, des heures pour un modèle de taille moyenne sur GPU, des semaines à mois pour les grands LLM sur des clusters de milliers de GPU. les plus grands LLM nécessitent des mois d'entraînement. En entreprise, le fine-tuning d'un LLM existant prend typiquement quelques heures à quelques jours.
Le pre-training est l'entraînement initial sur de vastes données générales, créant un modèle de base. Le fine-tuning adapte ce modèle pré-entraîné à une tâche ou domaine spécifique avec des données ciblées. Le pre-training est coûteux et rare, le fine-tuning est accessible aux entreprises. Analogie : le pre-training donne une éducation générale, le fine-tuning enseigne un métier.
Un modèle bien entraîné montre de bonnes performances sur des données qu'il n'a jamais vues (jeu de test). Les métriques varient selon la tâche : accuracy pour la classification, BLEU/ROUGE pour la génération. Il faut vérifier l'absence d'overfitting (le modèle mémorise au lieu d'apprendre) et tester sur des cas réels. Le suivi des courbes de loss pendant l'entraînement révèle la convergence.
Le Transformer est l'architecture de réseau de neurones derrière les LLM modernes comme GPT et Claude.
Le Transformer est une architecture de réseau de neurones introduite en 2017 ("Attention Is All You Need") qui a révolutionné le traitement du langage naturel. Sa caractéristique clé est le mécanisme d'attention qui permet de modéliser les relations entre tous les mots d'une phrase, quelle que soit leur distance. Les Transformers sont massivement parallélisables, permettant l'entraînement sur d'énormes corpus. GPT, BERT, Claude, Llama, et la plupart des LLM modernes sont basés sur cette architecture.
Avant le Transformer, les modèles RNN/LSTM traitaient le texte séquentiellement, ce qui limitait le parallélisme et la capacité à capturer les dépendances longues. Le mécanisme d'attention du Transformer permet de relier directement des mots distants ("Le chat que j'ai vu hier... dort"). La parallélisation massive permet l'entraînement sur des milliards de mots, menant aux LLM actuels.
L'attention calcule, pour chaque mot, l'importance de tous les autres mots du contexte. Chaque mot génère trois vecteurs : Query (ce que je cherche), Key (ce que je représente), Value (ma contribution). Le score d'attention = Query × Key, normalisé, puis multiplié par Value. Cela permet au modèle de "regarder" différents endroits du texte selon le besoin. Le multi-head attention répète ce processus plusieurs fois en parallèle.
Les Transformers ont des limitations : la mémoire croît quadratiquement avec la longueur du texte (coût d'attention), ce qui limite le contexte. Les fenêtres de 128K tokens des modèles récents nécessitent des optimisations (FlashAttention, sparse attention). Ils sont aussi très gourmands en calcul et en données d'entraînement. Des architectures alternatives émergent (State Space Models, Mamba) pour adresser ces limites.
Le TTS convertit le texte écrit en parole audio synthétisée.
Le TTS (Text-to-Speech) ou synthèse vocale est la technologie qui convertit du texte écrit en parole audio. Les systèmes TTS modernes utilisent le deep learning pour produire une voix naturelle, avec intonation et émotion. C'est la dernière étape des callbots : après que le LLM a généré la réponse textuelle, le TTS la vocalise pour l'appelant. Les leaders incluent ElevenLabs, Amazon Polly, Google Cloud TTS, et Azure Speech. La qualité des voix neurales approche celle de la voix humaine.
Le TTS est l'étape finale du pipeline callbot : il convertit la réponse textuelle générée par le LLM en audio que l'appelant entend. La voix, le débit, et l'intonation peuvent être personnalisés. Le streaming TTS (génération au fil de l'eau) réduit la latence. Les callbots avancés ajustent le style (plus empathique si le client est frustré) et gèrent la prononciation des termes métier.
Le choix de voix TTS dépend de : l'image de marque (dynamique, rassurante, professionnelle), le public cible (âge, contexte), la langue et l'accent souhaités (français neutre, régional), et la disponibilité multilingue si nécessaire. Testez plusieurs voix sur des scripts réels et faites valider par des utilisateurs. La prononciation du vocabulaire métier est un critère important souvent négligé.
Oui, les technologies de voice cloning (ElevenLabs, Play.ht) permettent de créer une voix synthétique à partir d'échantillons audio d'une personne réelle. Cela permet d'utiliser la voix d'un porte-parole de l'entreprise ou de maintenir une cohérence vocale. Attention aux aspects légaux : le consentement de la personne clonée et les règles anti-fraude sont essentiels. Certaines juridictions régulent spécifiquement les deepfakes vocaux.
Le transfer learning réutilise un modèle entraîné sur une tâche pour l'adapter à une nouvelle tâche similaire.
Le transfer learning (apprentissage par transfert) est une technique où un modèle entraîné sur une tâche est réutilisé comme point de départ pour une autre tâche. Au lieu de partir de zéro, on exploite les connaissances déjà acquises. C'est le principe du fine-tuning des LLM : prendre GPT ou BERT (entraînés sur des tâches génériques) et les adapter à un domaine spécifique. Le transfer learning réduit drastiquement les besoins en données et en temps d'entraînement.
Le transfer learning exploite le fait que les couches inférieures des réseaux de neurones apprennent des représentations génériques (bords dans les images, structures grammaticales dans le texte). Ces représentations sont utiles pour de nombreuses tâches. Seules les couches supérieures, spécifiques à la tâche, doivent être ré-entraînées. Cela permet d'obtenir de bons résultats avec peu de données spécifiques.
Utilisez le transfer learning (quasi-toujours recommandé) quand : vous avez peu de données, votre tâche est similaire à celle du modèle source, et vous voulez des résultats rapides. Entraînez from scratch (rare) seulement si : votre domaine est très différent (données médicales très spécifiques, nouvelle langue peu représentée), vous avez énormément de données, et les performances du transfer learning ne suffisent pas.
Le transfer learning fonctionne mieux quand les domaines sont proches. Transférer de texte général vers texte juridique fonctionne bien. Transférer d'images vers du texte est plus difficile (les représentations sont différentes). Cependant, même des transferts inter-domaines peuvent aider en fournissant une meilleure initialisation que l'aléatoire. Les modèles multimodaux (texte + image) exploitent cette idée.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisee.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisée.
45 min · Gratuit · Réponse sous 24h
Voir les disponibilités