Callbot open source 2026 : blueprint SIP + STT/TTS + LLM (self-hosted)
Callbot open source 2026 : blueprint SIP + STT/TTS + LLM (self-hosted)
Architecture de référence : Asterisk/FreeSWITCH, SIP/RTP, STT (Whisper/Voxtral), LLM open-weight, TTS (Piper/Coqui), obs.
Réservez votre diagnostic IA
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisée.
45 min · Gratuit · Réponse sous 24h
Voir les disponibilitésOui, vous pouvez construire un callbot majoritairement open source en 2026. Le blueprint typique : téléphonie SIP/RTP via Asterisk ou FreeSWITCH, passerelle média, STT, orchestration par state machine, LLM open-weight, TTS, puis observabilité et gouvernance. Le vrai défi n’est pas la démo, mais l’exploitation à l’échelle avec sécurité et conformité.
Open source, open-weight… et la nuance qui évite les conversations religieuses
Avant de parler architecture, clarifions un point :
- open source : code ouvert (et parfois modèles ouverts),
- open-weight : poids de modèles disponibles, mais pas forcément le dataset/pipeline complet.
Dans un callbot, la question pratique est :
Pouvez-vous héberger, gouverner, observer, et mettre à jour sans surprise ?
Si oui, vous avez “du contrôle”. Qu’on appelle ça open source ou open-weight, c’est secondaire.
Et si non, vous avez une démo auto‑hébergée. C’est une espèce rare, mais elle existe.
Le panorama “stack callbot 2026” (LLM/STT/TTS/S2S, open source vs cloud) est ici : Stack callbot 2026.
Blueprint : les 7 briques d’un callbot self-hosted
Un callbot “open source” solide ressemble à une chaîne :
- Téléphonie (SIP/RTP)
- Passerelle média (audio in/out, WebRTC si besoin)
- Traitement audio (AEC/denoise/AGC)
- STT streaming (transcription)
- Orchestration (états + règles + outils)
- LLM (décision)
- TTS streaming (synthèse)
Et autour :
- observabilité,
- sécurité,
- conformité,
- et déploiement (scaling).
Si vous voulez la partie téléphonie détaillée : SIP/RTP/WebRTC pour callbot.
Téléphonie : SIP et RTP (les fondations)
SIP est normalisé dans l’IETF RFC 3261.1
RTP (transport média) dans l’IETF RFC 3550.2
Vous n’avez pas besoin de lire ces RFCs pour écrire un callbot.
Mais c’est utile pour comprendre :
- ce qui est “signalisation” vs “média”,
- pourquoi certaines erreurs sont des timeouts,
- et pourquoi “ça marchait en labo” casse avec un trunk réel.
Asterisk (open source)
La documentation Asterisk décrit sa stack téléphonie et ses modules (PBX, dialplan, etc.).3
Un pattern courant :
- Asterisk gère la signalisation et le call control,
- votre application callbot gère la conversation,
- et vous reliez les deux via une passerelle média.
FreeSWITCH (open source)
FreeSWITCH fournit une autre stack téléphonie open source, largement utilisée comme softswitch.4
Choix Asterisk vs FreeSWITCH ?
Ce n’est pas une question “de goûts”. C’est :
- vos compétences internes,
- votre besoin de média/routing,
- et votre stratégie d’exploitation.
Passerelle média : là où l’audio devient “un produit”
Entre la téléphonie et votre IA, il y a un endroit où l’audio doit être :
- décodé,
- routé,
- parfois mixé,
- et instrumenté.
C’est votre passerelle média.
En inbound SIP/RTP, vous avez souvent un flux RTP.
Votre application callbot, elle, veut :
- un stream audio stable,
- un signal de référence pour l’AEC,
- et parfois un contrôle fin de la lecture (barge-in).
Donc vous finissez avec une architecture de type :
- PBX/softswitch (Asterisk/FreeSWITCH),
- media gateway (bridge RTP ↔ votre app),
- et votre engine STT/LLM/TTS.
Ce n’est pas glamour, mais c’est le point où :
- la latence se gagne,
- la qualité se gagne,
- et la prod se sauve.
Si vous voulez revoir la plomberie (SIP, RTP, WebRTC) avec des mots simples : SIP/RTP/WebRTC pour callbot.
Audio : AEC, denoise, AGC (la brique qui sauve vos KPI)
Dans un callbot, si l’audio est mauvais :
- le STT est mauvais,
- donc les décisions sont mauvaises,
- donc l’appel est long.
Avant de parler modèles, lisez : Audio callbot : AEC/denoise/AGC.
STT open source / open-weight : Whisper, Voxtral…
Whisper (open source)
Whisper est publié en open source (repo officiel).5
Avantages :
- contrôle (self-host),
- audit de pipeline,
- et options d’optimisation.
Inconvénients :
- exploitation GPU,
- latence/streaming selon votre implémentation,
- et maintenance.
Voxtral (open-weights Apache 2.0)
Mistral publie une model card Voxtral, et mentionne des open weights sous licence Apache 2.0 (selon variantes), ce qui en fait une option intéressante côté STT open-weight en 2026.6
Intérêt :
- self-host possible,
- options “realtime”,
- et une voie “souveraine” selon votre infra.
LLM open-weight : contrôle, coûts, gouvernance
Un callbot n’a pas besoin du modèle “le plus poète”.
Il a besoin d’un modèle qui :
- suit des règles,
- appelle des outils proprement,
- et reste stable (latence, versions).
Les familles open-weight (ex. Meta Llama 4, model card officielle) sont une option fréquente pour du self‑host quand on veut du contrôle.7
Et Mistral documente également son catalogue de modèles.8
Le plus important : isoler le modèle derrière une interface stable (contrat), pour pouvoir changer de modèle sans réécrire tout le callbot.
TTS open source : Piper, Coqui TTS
Piper est un projet open source utilisé pour de la TTS locale/edge (repo officiel).9
Coqui TTS est une boîte à outils open source pour la synthèse vocale (repo officiel).10
Dans un callbot, la TTS n’est pas un concours de voix.
C’est une interface :
- chiffres,
- pauses,
- barge-in,
- et latence.
Le meilleur conseil : choisissez une voix “assez bonne”, puis optimisez la conversation et l’architecture.
Scaling : le blueprint qui marche à 100 appels casse à 10 000 (si vous ne le préparez pas)
Self-host, c’est une promesse : “on contrôle”.
Mais le scale, lui, s’en fiche de la promesse.
À l’échelle, vous allez découvrir des réalités :
- la latence p95 n’est pas la latence “moyenne”,
- le GPU n’est pas un puits sans fond,
- et les retries coûtent du temps et de l’argent.
Quelques patterns de scale (pragmatiques) :
1) Découpler les maillons
Ne faites pas “un monolithe” qui :
- reçoit l’audio,
- transcrit,
- décide,
- synthétise,
- et transfère,
dans un seul process.
Découpler STT/LLM/TTS vous permet :
- d’absorber des pics,
- de mettre des files,
- et de remplacer une brique sans tout casser.
2) Cacher ce qui se répète
Beaucoup d’intents sont répétitifs (“horaires”, “suivi”).
Vous pouvez cacher :
- des réponses courtes,
- des résultats retrieval (RAG),
- et des prompts “squelettes”.
Le but est de réduire la charge, pas de faire “moins intelligent”.
3) Prévoir le fallback (et le tester)
Fallback STT (autre modèle), fallback TTS, escalade humaine.
Le plan B non testé est un plan imaginaire.
4) Mesurer (sinon, vous pilotez à l’oreille)
Vous devez instrumenter :
- latence p95 par maillon,
- taux d’erreur,
- et coût par appel.
L’article dédié : Observabilité callbot.
Orchestration : state machine + outils + guardrails
Le cœur du callbot, ce n’est pas le modèle.
C’est l’orchestration :
- états (où on en est),
- validations (champs critiques),
- actions (outils),
- et escalade (humain).
Le modèle peut aider, mais la structure doit être déterministe.
Pour la méthode “zone de confiance” : Guardrails callbot.
Observabilité : si vous ne pouvez pas expliquer, vous ne pouvez pas opérer
Self‑host = plus de contrôle.
Mais self‑host = aussi plus de responsabilité.
Donc, instrumentez dès le début :
- traces,
- métriques,
- logs structurés.
L’article dédié : Observabilité callbot.
Déploiement et mises à jour : versionner tout (sinon vous ne comprendrez rien)
Un callbot self-hosted a plus de contrôle… donc plus de variables :
- versions de modèles,
- versions de prompts,
- règles de routing,
- et politiques de guardrails.
Donc, versionnez :
- vos configurations,
- vos modèles,
- vos schémas d’événements,
- et vos déploiements.
La prod aime les changements contrôlés. Le big bang aime les post‑mortems.
Conformité : le self-host ne vous donne pas la conformité “gratuite”
On entend parfois :
“On self-host, donc c’est bon.”
Non.
Le self-host vous donne du contrôle sur la donnée.
Il ne vous donne pas automatiquement :
- les scripts de consentement,
- les politiques de rétention,
- les process d’effacement,
- et la documentation.
Pour la partie RGPD/voix : RGPD & callbots.
Sécurité : isolation, secrets, et “ne pas exposer le cerveau sur Internet”
Self‑host vous donne une liberté : vous contrôlez vos composants.
Mais ça signifie aussi : vous pouvez vous tromper vous‑même.
Quelques basiques de sécurité en callbot self-hosted :
- isoler les composants (STT/LLM/TTS) derrière des réseaux privés,
- gérer les secrets (rotation, vault),
- limiter les accès aux logs et aux transcriptions,
- et garder une zone de confiance (ce que le bot peut faire).
Un callbot est une surface de social engineering : quelqu’un peut essayer d’obtenir des infos, de forcer une action, ou de contourner une policy. Les principes et menaces sont détaillés ici : Sécurité callbot.
Et pour le côté “guardrails” (tool permissions, escalade) : Guardrails callbot.
RAG dans une stack open source : la base de connaissance doit être gouvernée
Open source ne veut pas dire “on peut indexer tout et n’importe quoi”.
Le RAG reste un système de vérité :
- quelles sources font autorité ?
- comment on versionne ?
- comment on purge ?
Dans une stack self-hosted, vous avez un avantage : vous pouvez garder le retrieval on‑prem.
Mais vous avez aussi un devoir : vous devez l’opérer.
Le pattern robuste :
- corpus “procédures” séparé des données client,
- retrieval instrumenté (retrieval vide, contradictions),
- et escalade quand l’info manque.
Pour une méthode complète RAG “voice-ready” : RAG pour callbot.
Open source vs cloud : un comparatif honnête
| Critère | Self-host (open source/open-weight) | Cloud (managed) |
|---|---|---|
| Contrôle | Élevé (infra, data, versions) | Variable (selon fournisseur) |
| Time-to-market | Plus long | Plus rapide |
| Coûts à l’échelle | Optimisables, mais ops non-négociable | Prévisibles, parfois élevés |
| Conformité | Plus facile à isoler/on-prem | Possible mais dépendant |
| Observabilité | À construire (mais contrôlable) | Souvent intégré, mais moins flexible |
Hybride : self-host + cloud fallback (la stratégie réaliste)
Beaucoup d’équipes “open source” finissent… hybrides. Et c’est sain.
Exemples :
- self-host STT pour des raisons de données, mais fallback cloud si GPU saturé,
- self-host LLM pour le contrôle, mais cloud pour certains intents non sensibles,
- self-host TTS, mais voice vendor pour une langue rare au début.
L’hybride vous donne deux choses :
- un chemin de migration (vous n’êtes pas bloqué),
- et un plan B (les pannes arrivent).
La condition de succès : une interface stable entre briques (contrat), et une observabilité qui vous permet de voir quand vous basculez (et pourquoi).
Et surtout : testez vos bascules.
Une stratégie fallback non testée est une stratégie imaginaire. Faites des exercices simples :
- couper volontairement le STT principal,
- saturer un worker,
- simuler une latence réseau,
- et vérifier que le callbot escalade proprement au lieu de rester silencieux.
La prod ne vous jugera pas sur “l’élégance” du fallback. Elle vous jugera sur l’absence de panique.
Encore une fois : le self-host qui impressionne en démo n’a aucune valeur s’il s’écroule à 9h12. La stabilité est la feature la plus sous-cotée.
C’est ça, un callbot qui résout vite et tient bien la charge.
Le bon choix n’est pas “open source partout”.
Le bon choix est : “où est-ce que je veux du contrôle, et où est-ce que je veux du temps ?”
Construire un MVP open-source : méthode en 10 étapes
Définir un cas d’usage mesurable
Routage + un parcours niveau 1. Pas “tout le service client”.
Choisir la brique téléphonie (Asterisk ou FreeSWITCH)
Selon vos compétences internes et votre trunk.
Mettre une passerelle média
Audio in/out stable, et tests en 8 kHz téléphonie.
Ajouter audio processing (AEC/NS/AGC)
Sinon vous allez débugger du bruit pendant 3 mois.
Brancher un STT (Whisper ou Voxtral)
Streaming + endpointing, mesuré p95.
Brancher un LLM open-weight derrière une API interne
Interface stable, tool calling contrôlé.
Brancher une TTS (Piper/Coqui)
Court, clair, barge-in friendly.
Écrire l’orchestration (états + validations)
Confirmation chiffres/dates, escalade en doute.
Instrumenter (observabilité)
Logs/traces/métriques dès le début.
Go-live en rampe + rollback
La prod aime les paliers. Le big bang aime les post-mortems.
FAQ
Questions frequentes
Open source = moins cher ?
Pas automatiquement. Vous économisez parfois sur le prix API, mais vous payez en infra GPU, en exploitation, en monitoring et en maintenance. À l’échelle, ça peut être excellent. À petite équipe, ça peut être coûteux.
Whisper suffit-il pour un callbot temps réel ?
Ça dépend de votre implémentation (streaming, endpointing) et de vos contraintes de latence. Le point clé : tester sur audio téléphonie réel.
Voxtral est-il open source ?
Voxtral est présenté comme open-weights (licence mentionnée dans la model card). Ce n’est pas toujours la même chose qu’open source, mais ça ouvre le self-host et le contrôle.6
Le plus gros piège du self-host callbot ?
Sous-estimer l’exploitation : latence p95, pannes, scaling, et logs. La prod n’a pas de patience pour les systèmes fragiles.
Sources et references
- [1]IETF, “RFC 3261 — SIP: Session Initiation Protocol”.
- [2]IETF, “RFC 3550 — RTP: A Transport Protocol for Real-Time Applications”.
- [3]Asterisk Documentation (index).
- [4]FreeSWITCH Documentation (index).
- [5]OpenAI, “Whisper” (repository).
- [6]Mistral, “Voxtral model card” (open-weights, licence).
- [7]Meta, “Llama 4 Model Card”.
- [8]Mistral AI, “Models overview”.
- [9]Piper (Rhasspy), repository GitHub.
- [10]Coqui TTS, repository GitHub.
Articles associés
SIP, RTP, WebRTC : brancher un callbot sans souffrir
Un callbot téléphonique n’est pas qu’une IA : c’est une intégration télécom. SIP gère la signalisation, RTP transporte l’audio, SDP décrit les paramètres média et WebRTC apporte un stack temps réel sécurisé côté web. Le bon choix d’architecture dépend ensuite
LireStack callbot 2026 : LLM, STT, TTS, Speech-to-Speech
En 2026, un callbot performant se construit comme une chaîne temps réel : téléphonie, STT, décision LLM avec outils et données, puis TTS, ou une approche speech-to-speech pour réduire la latence. Le bon choix dépend de vos contraintes de production : latence
LireAudio callbot : AEC, denoise, AGC — la stack qui sauve vos appels
La plupart des problèmes de callbot ne viennent pas du LLM : ils viennent de l’audio. Echo, bruit, niveaux instables, 8 kHz téléphonie… Si le callbot entend mal, il répond mal. Une stack audio robuste (AEC, denoise, AGC, VAD) améliore le STT, réduit l’AHT, et
Lire