Observabilité : comprendre les métriques
Ce guide décrit l'ensemble des métriques d'observabilité utilisées pour évaluer la qualité des appels téléphoniques d'entretien IA. Les métriques sont réparties en deux grandes familles : les métriques techniques (calculées automatiquement à partir des données audio/transcript) et les métriques LLM Judge (évaluées par un modèle de langage à partir du transcript).
1. Métriques Techniques
Ces métriques sont calculées automatiquement après chaque appel à partir des données audio brutes et du transcript.
1.1 MOS — Qualité Audio
Le MOS (Mean Opinion Score) est un standard qui mesure la qualité audio perçue. Il est calculé séparément pour le candidat (user_mos) et l'agent IA (agent_mos), sur une échelle de 1 à 5.
Grille de lecture :
| Score MOS | Qualité | Équivalent |
|---|---|---|
| 4.0 - 5.0 | Excellente | Qualité HD / VoIP haute qualité |
| 3.5 - 4.0 | Bonne | Qualité téléphonique standard |
| 3.0 - 3.5 | Acceptable | Qualité téléphonique dégradée, compréhensible |
| 2.5 - 3.0 | Médiocre | Effort d'écoute nécessaire, mots manqués |
| 1.0 - 2.5 | Mauvaise | Difficilement compréhensible |
Facteurs qui impactent le MOS :
- Qualité du réseau téléphonique du candidat (4G, Wi-Fi, zone blanche)
- Bruit de fond (rue, transport, open space)
- Qualité du micro (casque, haut-parleur, kit mains libres)
- Compression audio du réseau de l'opérateur
1.2 Interruptions
Nombre de fois où un interlocuteur commence à parler pendant que l'autre est encore en train de parler.
Grille de lecture :
| Interruptions/appel | Interprétation |
|---|---|
| 0 - 2 | Normal, conversation fluide |
| 3 - 5 | Modérément fréquent, peut indiquer de la latence |
| 6 - 10 | Fréquent, possiblement problème de latence |
| > 10 | Excessif, expérience dégradée |
Les interruptions du candidat (qui coupe l'agent) sont normales en conversation. Les interruptions de l'agent (qui coupe le candidat) sont souvent le signe d'un problème technique.
1.3 Transcript Confidence
Degré de certitude du moteur de transcription (Speech-to-Text) pour chaque mot reconnu. Exprimé de 0 à 1.
| Confidence moyenne | Interprétation |
|---|---|
| > 0.95 | Excellente - transcription très fiable |
| 0.85 - 0.95 | Bonne - quelques mots incertains |
| 0.70 - 0.85 | Dégradée - risque d'erreurs dans le transcript |
| < 0.70 | Mauvaise - transcript peu fiable |
1.4 Latence Moyenne
Temps moyen entre le moment où le candidat finit de parler et le moment où l'agent commence à répondre.
| Latence | Perception |
|---|---|
| < 1 250 ms | Fluide, naturel |
| 1 250 - 1 750 ms | Acceptable, légèrement perceptible |
| 1 750 - 2 500 ms | Perceptible, conversation saccadée |
| > 2 500 ms | Très perceptible, expérience dégradée |
2. Métriques LLM Judge (évaluées par IA)
Ces métriques sont évaluées par un LLM qui analyse le transcript de l'appel. Le LLM reçoit le transcript complet, le titre et la description du poste, et retourne un score structuré avec une explication.
2.1 Satisfaction Score
Degré de satisfaction apparente du candidat durant l'entretien, évalué à partir du ton, des réponses et du comportement verbal.
| Score | Interprétation |
|---|---|
| 5 | Très satisfait - candidat engagé, réponses détaillées |
| 4 | Satisfait - conversation fluide, bonne interaction |
| 3 | Neutre - correct sans plus, quelques signes de friction |
| 2 | Insatisfait - signes de frustration ou désengagement |
| 1 | Très insatisfait - expérience clairement négative |
2.2 Compréhensibilité
Évalue si le transcript est sémantiquement compréhensible : est-ce qu'un humain qui le lit peut comprendre ce qui s'est dit ?
| Score | Interprétation |
|---|---|
| 5 | Parfaitement compréhensible - transcript clair et complet |
| 4 | Très compréhensible - quelques passages mineurs flous |
| 3 | Compréhensible - certains passages difficiles mais sens général ok |
| 2 | Peu compréhensible - nombreux passages incohérents |
| 1 | Incompréhensible - transcript inutilisable |
2.3 Autres métriques LLM actives
| Métrique | Type | Description |
|---|---|---|
| Questions répétées | Score 1-5 | L'agent pose-t-il les mêmes questions plusieurs fois ? |
| Réponses répétées | Compteur | Le candidat répète-t-il les mêmes réponses ? |
| Faux positifs de compréhension | Score 1-5 | L'agent fait-il semblant de comprendre ou reformule-t-il mal ? |
| Hallucination | Booléen | L'agent invente-t-il des informations non présentes dans la fiche de poste ? |
| Information incorrecte | Booléen | L'agent contredit-il la fiche de poste ? |
3. Score Global de Qualité
Le score global est calculé à partir de l'ensemble des métriques, normalisé sur une échelle 0-100 avec 4 catégories pondérées :
| Catégorie | Poids | Métriques incluses |
|---|---|---|
| Qualité conversationnelle | 40 % | Satisfaction, Compréhensibilité, Hallucinations, Infos incorrectes |
| Qualité audio | 20 % | MOS agent, MOS candidat |
| Performance technique | 20 % | Latence moyenne |
| Qualité des échanges | 20 % | Interruptions agent, Interruptions candidat, Questions répétées |
Grades :
| Score | Grade |
|---|---|
| ≥ 90 | A |
| ≥ 85 | B+ |
| ≥ 75 | B |
| ≥ 60 | C |
| < 60 | D |
Dernière mise à jour : Mars 2026