Plus de 100 termes IA expliqués clairement pour les décideurs. Chaque définition répond directement à la question que vous vous posez, sans jargon inutile.
Le few-shot learning permet a un modèle d'apprendre une nouvelle tache avec seulement quelques exemples.
Le few-shot learning est la capacité d'un modèle IA a effectuer une nouvelle tache apres avoir vu seulement quelques exemples (typiquement 1 a 10). Les grands modèles de langage (LLM) excellent dans cette approche : en fournissant quelques exemples dans le prompt, ils généralisent au pattern demande. Cela contraste avec l'apprentissage classique qui nécessite des milliers d'exemples. Le few-shot rend l'IA accessible sans dataset massif.
Dans le prompt envoye au LLM, on inclut quelques exemples du format attendu avant de poser la vraie question. Exemple : 'Classifie le sentiment. Texte: Super produit! -> Positif. Texte: Decevant... -> Negatif. Texte: Service correct. -> ?'. Le LLM comprend le pattern et répond. C'est l'in-context learning : le modèle apprend 'a la volee' sans modification de ses poids.
Zero-shot : le modèle execute la tache sans aucun exemple (juste une instruction). Few-shot : quelques exemples sont fournis dans le prompt. Fine-tuning : le modèle est re-entraîné sur de nombreux exemples, modifiant ses paramêtres. Le zero-shot est le plus simple, le fine-tuning le plus précis mais le plus couteux. Le few-shot offre un bon compromis.
Preferez le few-shot quand : vous avez peu d'exemples (<100), le cas d'usage est simple (classification, extraction), vous voulez experimenter rapidement, ou le modèle de base est suffisamment performant. Optez pour le fine-tuning quand : vous avez des centaines d'exemples, la tache est complexe ou spécifique, la précision est critique, ou vous voulez reduire les couts d'inference a long terme.
Le fine-tuning adapte un modèle pre-entraîné a une tache ou un domaine spécifique avec des données ciblees.
Le fine-tuning est le processus d'adaptation d'un modèle de machine learning pre-entraîné a une tache ou domaine spécifique. Plutot que d'entraînér un modèle de zero, on part d'un modèle existant (GPT, BERT) et on l'ajuste avec des données du domaine cible. Cela permet d'obtenir d'excellentes performances avec moins de données et de temps que l'entraînément complet. En entreprise, on fine-tune des LLM pour adopter le ton de la marque ou maitriser le vocabulaire métier.
Le fine-tuning permet : d'adapter le ton et le style au brand voice, d'intégrer le vocabulaire métier spécifique, d'améliorer la précision sur les cas d'usage cibles, de reduire les hallucinations sur le domaine, et de diminuer les couts d'inference (modèle plus petit possible). C'est le pont entre un modèle généraliste et une solution sur-mesure.
Les quantités varient : pour les modèles OpenAI, la recommandation est 50 à 100 exemples de qualité minimum, idéalement 500+. Pour les modèles open source (Llama, Mistral), 1000 a 10000 exemples sont courants. La qualité prime sur la quantite : 200 exemples bien rediges battent 2000 exemples bruites. Le format : paires prompt/réponse attendue.
Les couts varient enormêment. Via API OpenAI : quelques dizaines a centaines de dollars pour un fine-tuning. En auto-hébergé sur cloud : le cout GPU domine (100-1000+ dollars selon la taille du modèle et la duree). Des techniques comme LoRA reduisent le cout en n'entrainant qu'une fraction des paramêtres. Prevoyez aussi le cout de preparation des données.
Une fonction d'activation introduit de la non-linearite dans un réseau de neurones, lui permettant d'apprendre des patterns complexes.
Une fonction d'activation est une fonction mathematique appliquee a la sortie de chaque neurone dans un réseau de neurones. Elle introduit de la non-linearite, permettant au réseau de modeliser des relations complexes. Sans fonction d'activation, un réseau profond serait equivalent a un simple modèle lineaire. Les fonctions courantes sont ReLU, Sigmoid, Tanh et GELU. Le choix de la fonction d'activation impacte la vitesse d'apprentissage et les performances du modèle.
Sans fonction d'activation, chaque couche du réseau effectue une transformation lineaire. La composition de transformations lineaires reste lineaire. Les fonctions d'activation brisent cette linearite, permettant au réseau d'approximer n'importe quelle fonction continue (theoreme d'approximation universelle). C'est ce qui donne au deep learning sa puissance de modelisation.
ReLU (Rectified Linear Unit) domine depuis 2012 : f(x) = max(0, x). Elle est simple, rapide a calculer, et evite le problème du gradient qui disparait. Pour les LLM modernes (GPT, etc.), GELU (Gaussian Error Linear Unit) est preferee car elle offre des gradients plus doux. Sigmoid et Tanh sont encore utilisees pour des couches spécifiques (sorties de classification).
Les décideurs n'ont pas besoin de choisir les fonctions d'activation (c'est le travail des data scientists), mais comprendre leur role aide a saisir pourquoi le deep learning fonctionne. C'est aussi un point technique qui peut emerger lors de discussions avec des équipes techniques ou lors de l'evaluation de fournisseurs IA qui optimisent leurs architectures.
Un Foundation Model est un modèle IA pre-entraîné sur de vastes données, servant de base pour de multiples applications.
Un Foundation Model (modèle de fondation) est un modèle de deep learning entraîné sur d'enormes volumes de données qui peut ensuite être adapte a une large variété de taches en aval. Les exemples incluent les modèles d'OpenAI, Anthropic, Meta (Llama), Mistral, et Google. Ces modèles capturent des connaissances générales du langage (ou des images pour les modèles multimodaux) et servent de point de depart pour des applications spécifiques via prompting ou fine-tuning. Ils ont revolutionne l'IA en rendant les capacités avancees accessibles.
Les Foundation Models democratisent l'IA avancee : au lieu de construire un modèle de zero (couteux, long, expertise requise), les entreprises utilisent des modèles pre-entraînés via API ou fine-tuning. Cela reduit le time-to-market de mois a semaines, diminue les couts, et permet d'acceder a des capacités (comprehension du langage, generation) auparavant reservees aux geants tech.
Les principaux fournisseurs sont : OpenAI, Anthropic (Claude), Google (Gemini), Meta (Llama, open source) et Mistral AI (français). Chaque fournisseur fait évoluer ses modèles rapidement — le choix optimal dépend du cas d'usage, des contraintes de confidentialité, de latence et de budget. L'approche recommandée est de sélectionner le meilleur ratio coût/performance pour chaque besoin spécifique.
Oui, les modèles open source (Llama, Mistral) peuvent être hébergés on-premise ou sur cloud prive. Cela garantit la confidentialite des données et evite les couts API reçurrents. Cependant, cela nécessite une infrastructuré GPU significative et une expertise technique. Des solutions comme vLLM où TensorRT facilitent le déploiement. C'est pertinent pour les grandes entreprises avec des contraintes règlementaires.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisee.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisée.
45 min · Gratuit · Réponse sous 24h
Voir les disponibilités