Plus de 100 termes IA expliqués clairement pour les décideurs. Chaque définition répond directement à la question que vous vous posez, sans jargon inutile.
Une base de données vectorielle stocke et recherche des embeddings pour permettre la recherche sémantique.
Une base de données vectorielle est une base de données spécialisée dans le stockage et la recherche de vecteurs (embeddings). Elle permet de trouver rapidement les vecteurs les plus similaires à un vecteur de requête, opération essentielle pour la recherche sémantique et le RAG. Contrairement aux bases relationnelles (qui matchent des valeurs exactes), les bases vectorielles trouvent des similarités sémantiques. Les leaders incluent Pinecone, Weaviate, Milvus, Qdrant, et pgvector (extension PostgreSQL).
Le RAG nécessite de trouver les passages de documents les plus pertinents pour une question. Les bases vectorielles permettent cette recherche sémantique à l'échelle : elles stockent des millions de vecteurs (embeddings de documents) et trouvent les plus proches d'un vecteur requête en millisecondes. Sans base vectorielle performante, le RAG serait trop lent pour une utilisation en temps réel.
Le choix dépend de : la volumétrie (millions vs milliards de vecteurs), le déploiement (cloud managé vs self-hosted), l'intégration (SDK, compatibilité LangChain), le coût, et les fonctionnalités (filtrage hybride, multitenancy). Pour démarrer : Pinecone (cloud simple), Qdrant (open source performant), pgvector (si vous utilisez déjà PostgreSQL). Pour les gros volumes : Milvus, Weaviate.
Non, les bases vectorielles complètent les bases traditionnelles. Elles excellent pour la recherche sémantique ("trouve des documents similaires") mais ne remplacent pas les requêtes structurées ("tous les clients de Paris créés en 2023"). Une architecture typique utilise une base relationnelle pour les données métier, une base vectorielle pour la recherche IA, et les lie via des IDs communs.
Un voicebot est un assistant virtuel qui interagit par la voix, utilisant reconnaissance et synthèse vocale.
Un voicebot est un agent conversationnel capable d'interagir avec les utilisateurs par la voix. Il combine la reconnaissance vocale (STT) pour comprendre ce que dit l'utilisateur, le NLU/LLM pour traiter la demande, et la synthèse vocale (TTS) pour répondre oralement. Les voicebots incluent les assistants grand public (Alexa, Google Assistant) et les callbots téléphoniques en entreprise. Ils offrent une interaction naturelle, particulièrement adaptée aux contextes mains-libres ou pour les publics moins à l'aise avec le texte.
Le voicebot est le terme générique pour tout bot vocal (sur téléphone, enceinte connectée, application). Le callbot est un voicebot spécifiquement dédié au canal téléphonique. Le callbot gère les particularités de la téléphonie (DTMF, transfert d'appel, files d'attente) et s'intègre aux systèmes de centre de contact. Tous les callbots sont des voicebots, mais tous les voicebots ne sont pas des callbots.
Les voicebots affrontent des défis que les chatbots texte n'ont pas : qualité audio variable (bruit, connexion), accents et prononciations diverses, impossibilité de "relire" (l'utilisateur ne peut pas scroller), latence visible (pause silencieuse gênante), gestion des interruptions (barge-in), et absence de visuel pour guider l'interaction. Une conception conversationnelle spécifique est nécessaire.
Les KPIs d'un voicebot incluent : taux de reconnaissance vocale (WER), taux de résolution sans escalade, durée moyenne de conversation, taux d'abandon, satisfaction utilisateur (enquête post-appel), et latence bout-en-bout. La latence est critique : au-delà de 1-2 secondes de silence, l'utilisateur perçoit un problème. Le taux de "je n'ai pas compris" révèle les faiblesses du STT ou du NLU.
La vision par ordinateur permet aux machines d'analyser et comprendre le contenu des images et vidéos.
La vision par ordinateur (Computer Vision) est le domaine de l'IA qui permet aux machines d'interpréter et d'analyser le contenu visuel : images et vidéos. Les applications incluent la reconnaissance faciale, la détection d'objets, l'OCR (lecture de texte), l'analyse de documents, et le contrôle qualité industriel. Les modèles modernes utilisent des réseaux de neurones convolutifs (CNN) ou des Vision Transformers. La vision par ordinateur s'intègre aux chatbots pour analyser les images envoyées par les utilisateurs.
La vision par ordinateur enrichit les chatbots pour : analyser les photos envoyées (déclaration de sinistre avec photo du dommage), lire des documents joints (factures, pièces d'identité), vérifier l'identité (KYC avec photo + selfie), et fournir du support visuel ("Quelle est cette plante ?"). Les LLM multimodaux intègrent nativement cette capacité.
Les modèles de vision atteignent des performances souvent supérieures à l'humain sur des tâches spécifiques. Pour la classification d'images générales, les erreurs sont sous 3% sur ImageNet. La détection d'objets atteint 80-90%+ de mAP sur les benchmarks standards. Pour l'OCR de bonne qualité, >99% de précision. Les performances dépendent fortement du domaine : un modèle général peut être moins bon qu'un modèle spécialisé sur des cas métier.
La vision par ordinateur soulève des enjeux éthiques : biais dans la reconnaissance faciale (moins précise sur certaines ethnies), surveillance de masse et vie privée, deepfakes et manipulation d'images, et discrimination potentielle basée sur l'apparence. Les entreprises doivent évaluer ces risques, assurer la transparence, et respecter les réglementations (RGPD pour les données biométriques, interdictions de reconnaissance faciale dans certains contextes).
La validation évalue les performances d'un modèle sur des données qu'il n'a pas vues pendant l'entraînement.
La validation est l'étape qui évalue les performances d'un modèle de machine learning sur des données distinctes de celles utilisées pour l'entraînement. Le jeu de validation permet d'ajuster les hyperparamètres et de détecter le surapprentissage (overfitting) pendant le développement. Le jeu de test, utilisé une seule fois à la fin, donne la performance finale non biaisée. La validation croisée (cross-validation) répète ce processus sur plusieurs découpages des données pour une estimation plus robuste.
Le jeu de validation est utilisé pendant le développement pour choisir le meilleur modèle et régler les hyperparamètres. Il peut être consulté plusieurs fois. Le jeu de test est réservé pour l'évaluation finale, utilisé une seule fois pour éviter tout biais. Si on optimise trop sur le test, on risque le surapprentissage sur le test. Typiquement : 70% train, 15% validation, 15% test.
La validation croisée divise les données en K parties (folds). On entraîne K modèles, chacun utilisant K-1 parties pour l'entraînement et 1 pour la validation. Cela donne K scores de performance dont on fait la moyenne. C'est plus robuste qu'un simple split car chaque donnée est utilisée pour la validation une fois. La K-fold classique utilise K=5 ou 10.
La validation d'un chatbot en production combine : tests automatisés (jeu de conversations test avec réponses attendues), évaluation humaine (annotateurs qui notent la pertinence), A/B testing (comparer deux versions du bot), et analyse des métriques live (taux de résolution, satisfaction, fallback). La validation continue est essentielle car les comportements utilisateurs évoluent.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisee.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisée.
45 min · Gratuit · Réponse sous 24h
Voir les disponibilités