Observabilité : comprendre les métriques

Ce guide décrit l'ensemble des métriques d'observabilité utilisées pour évaluer la qualité des appels téléphoniques d'entretien IA. Les métriques sont réparties en deux grandes familles : les métriques techniques (calculées automatiquement à partir des données audio/transcript) et les métriques LLM Judge (évaluées par un modèle de langage à partir du transcript).

1. Métriques Techniques

Ces métriques sont calculées automatiquement après chaque appel à partir des données audio brutes et du transcript.

1.1 MOS — Qualité Audio

Le MOS (Mean Opinion Score) est un standard qui mesure la qualité audio perçue. Il est calculé séparément pour le candidat (user_mos) et l'agent IA (agent_mos), sur une échelle de 1 à 5.

Grille de lecture :

Score MOS	Qualité	Équivalent
4.0 - 5.0	Excellente	Qualité HD / VoIP haute qualité
3.5 - 4.0	Bonne	Qualité téléphonique standard
3.0 - 3.5	Acceptable	Qualité téléphonique dégradée, compréhensible
2.5 - 3.0	Médiocre	Effort d'écoute nécessaire, mots manqués
1.0 - 2.5	Mauvaise	Difficilement compréhensible

Facteurs qui impactent le MOS :

Qualité du réseau téléphonique du candidat (4G, Wi-Fi, zone blanche)
Bruit de fond (rue, transport, open space)
Qualité du micro (casque, haut-parleur, kit mains libres)
Compression audio du réseau de l'opérateur

1.2 Interruptions

Nombre de fois où un interlocuteur commence à parler pendant que l'autre est encore en train de parler.

Grille de lecture :

Interruptions/appel	Interprétation
0 - 2	Normal, conversation fluide
3 - 5	Modérément fréquent, peut indiquer de la latence
6 - 10	Fréquent, possiblement problème de latence
> 10	Excessif, expérience dégradée

Les interruptions du candidat (qui coupe l'agent) sont normales en conversation. Les interruptions de l'agent (qui coupe le candidat) sont souvent le signe d'un problème technique.

1.3 Transcript Confidence

Degré de certitude du moteur de transcription (Speech-to-Text) pour chaque mot reconnu. Exprimé de 0 à 1.

Confidence moyenne	Interprétation
> 0.95	Excellente - transcription très fiable
0.85 - 0.95	Bonne - quelques mots incertains
0.70 - 0.85	Dégradée - risque d'erreurs dans le transcript
< 0.70	Mauvaise - transcript peu fiable

1.4 Latence Moyenne

Temps moyen entre le moment où le candidat finit de parler et le moment où l'agent commence à répondre.

Latence	Perception
< 1 250 ms	Fluide, naturel
1 250 - 1 750 ms	Acceptable, légèrement perceptible
1 750 - 2 500 ms	Perceptible, conversation saccadée
> 2 500 ms	Très perceptible, expérience dégradée

2. Métriques LLM Judge (évaluées par IA)

Ces métriques sont évaluées par un LLM qui analyse le transcript de l'appel. Le LLM reçoit le transcript complet, le titre et la description du poste, et retourne un score structuré avec une explication.

2.1 Satisfaction Score

Degré de satisfaction apparente du candidat durant l'entretien, évalué à partir du ton, des réponses et du comportement verbal.

Score	Interprétation
5	Très satisfait - candidat engagé, réponses détaillées
4	Satisfait - conversation fluide, bonne interaction
3	Neutre - correct sans plus, quelques signes de friction
2	Insatisfait - signes de frustration ou désengagement
1	Très insatisfait - expérience clairement négative

2.2 Compréhensibilité

Évalue si le transcript est sémantiquement compréhensible : est-ce qu'un humain qui le lit peut comprendre ce qui s'est dit ?

Score	Interprétation
5	Parfaitement compréhensible - transcript clair et complet
4	Très compréhensible - quelques passages mineurs flous
3	Compréhensible - certains passages difficiles mais sens général ok
2	Peu compréhensible - nombreux passages incohérents
1	Incompréhensible - transcript inutilisable

2.3 Autres métriques LLM actives

Métrique	Type	Description
Questions répétées	Score 1-5	L'agent pose-t-il les mêmes questions plusieurs fois ?
Réponses répétées	Compteur	Le candidat répète-t-il les mêmes réponses ?
Faux positifs de compréhension	Score 1-5	L'agent fait-il semblant de comprendre ou reformule-t-il mal ?
Hallucination	Booléen	L'agent invente-t-il des informations non présentes dans la fiche de poste ?
Information incorrecte	Booléen	L'agent contredit-il la fiche de poste ?

3. Score Global de Qualité

Le score global est calculé à partir de l'ensemble des métriques, normalisé sur une échelle 0-100 avec 4 catégories pondérées :

Catégorie	Poids	Métriques incluses
Qualité conversationnelle	40 %	Satisfaction, Compréhensibilité, Hallucinations, Infos incorrectes
Qualité audio	20 %	MOS agent, MOS candidat
Performance technique	20 %	Latence moyenne
Qualité des échanges	20 %	Interruptions agent, Interruptions candidat, Questions répétées

Grades :

Score	Grade
≥ 90	A
≥ 85	B+
≥ 75	B
≥ 60	C
< 60	D

Dernière mise à jour : Mars 2026

Configuration des agendas

Flows d'intégration

Endpoints

Webhooks

Statuts et fonctionnement

Observabilité : comprendre les métriques

1. Métriques Techniques

1.1 MOS — Qualité Audio

1.2 Interruptions

1.3 Transcript Confidence

1.4 Latence Moyenne

2. Métriques LLM Judge (évaluées par IA)

2.1 Satisfaction Score

2.2 Compréhensibilité

2.3 Autres métriques LLM actives

3. Score Global de Qualité

Observabilité : comprendre les métriques ​

1. Métriques Techniques ​

1.1 MOS — Qualité Audio ​

1.2 Interruptions ​

1.3 Transcript Confidence ​

1.4 Latence Moyenne ​

2. Métriques LLM Judge (évaluées par IA) ​

2.1 Satisfaction Score ​

2.2 Compréhensibilité ​

2.3 Autres métriques LLM actives ​

3. Score Global de Qualité ​

Observabilité : comprendre les métriques

1. Métriques Techniques

1.1 MOS — Qualité Audio

1.2 Interruptions

1.3 Transcript Confidence

1.4 Latence Moyenne

2. Métriques LLM Judge (évaluées par IA)

2.1 Satisfaction Score

2.2 Compréhensibilité

2.3 Autres métriques LLM actives

3. Score Global de Qualité