Skip to content

Observabilité : comprendre les métriques

Ce guide décrit l'ensemble des métriques d'observabilité utilisées pour évaluer la qualité des appels téléphoniques d'entretien IA. Les métriques sont réparties en deux grandes familles : les métriques techniques (calculées automatiquement à partir des données audio/transcript) et les métriques LLM Judge (évaluées par un modèle de langage à partir du transcript).

1. Métriques Techniques

Ces métriques sont calculées automatiquement après chaque appel à partir des données audio brutes et du transcript.

1.1 MOS — Qualité Audio

Le MOS (Mean Opinion Score) est un standard qui mesure la qualité audio perçue. Il est calculé séparément pour le candidat (user_mos) et l'agent IA (agent_mos), sur une échelle de 1 à 5.

Grille de lecture :

Score MOSQualitéÉquivalent
4.0 - 5.0ExcellenteQualité HD / VoIP haute qualité
3.5 - 4.0BonneQualité téléphonique standard
3.0 - 3.5AcceptableQualité téléphonique dégradée, compréhensible
2.5 - 3.0MédiocreEffort d'écoute nécessaire, mots manqués
1.0 - 2.5MauvaiseDifficilement compréhensible

Facteurs qui impactent le MOS :

  • Qualité du réseau téléphonique du candidat (4G, Wi-Fi, zone blanche)
  • Bruit de fond (rue, transport, open space)
  • Qualité du micro (casque, haut-parleur, kit mains libres)
  • Compression audio du réseau de l'opérateur

1.2 Interruptions

Nombre de fois où un interlocuteur commence à parler pendant que l'autre est encore en train de parler.

Grille de lecture :

Interruptions/appelInterprétation
0 - 2Normal, conversation fluide
3 - 5Modérément fréquent, peut indiquer de la latence
6 - 10Fréquent, possiblement problème de latence
> 10Excessif, expérience dégradée

Les interruptions du candidat (qui coupe l'agent) sont normales en conversation. Les interruptions de l'agent (qui coupe le candidat) sont souvent le signe d'un problème technique.

1.3 Transcript Confidence

Degré de certitude du moteur de transcription (Speech-to-Text) pour chaque mot reconnu. Exprimé de 0 à 1.

Confidence moyenneInterprétation
> 0.95Excellente - transcription très fiable
0.85 - 0.95Bonne - quelques mots incertains
0.70 - 0.85Dégradée - risque d'erreurs dans le transcript
< 0.70Mauvaise - transcript peu fiable

1.4 Latence Moyenne

Temps moyen entre le moment où le candidat finit de parler et le moment où l'agent commence à répondre.

LatencePerception
< 1 250 msFluide, naturel
1 250 - 1 750 msAcceptable, légèrement perceptible
1 750 - 2 500 msPerceptible, conversation saccadée
> 2 500 msTrès perceptible, expérience dégradée

2. Métriques LLM Judge (évaluées par IA)

Ces métriques sont évaluées par un LLM qui analyse le transcript de l'appel. Le LLM reçoit le transcript complet, le titre et la description du poste, et retourne un score structuré avec une explication.

2.1 Satisfaction Score

Degré de satisfaction apparente du candidat durant l'entretien, évalué à partir du ton, des réponses et du comportement verbal.

ScoreInterprétation
5Très satisfait - candidat engagé, réponses détaillées
4Satisfait - conversation fluide, bonne interaction
3Neutre - correct sans plus, quelques signes de friction
2Insatisfait - signes de frustration ou désengagement
1Très insatisfait - expérience clairement négative

2.2 Compréhensibilité

Évalue si le transcript est sémantiquement compréhensible : est-ce qu'un humain qui le lit peut comprendre ce qui s'est dit ?

ScoreInterprétation
5Parfaitement compréhensible - transcript clair et complet
4Très compréhensible - quelques passages mineurs flous
3Compréhensible - certains passages difficiles mais sens général ok
2Peu compréhensible - nombreux passages incohérents
1Incompréhensible - transcript inutilisable

2.3 Autres métriques LLM actives

MétriqueTypeDescription
Questions répétéesScore 1-5L'agent pose-t-il les mêmes questions plusieurs fois ?
Réponses répétéesCompteurLe candidat répète-t-il les mêmes réponses ?
Faux positifs de compréhensionScore 1-5L'agent fait-il semblant de comprendre ou reformule-t-il mal ?
HallucinationBooléenL'agent invente-t-il des informations non présentes dans la fiche de poste ?
Information incorrecteBooléenL'agent contredit-il la fiche de poste ?

3. Score Global de Qualité

Le score global est calculé à partir de l'ensemble des métriques, normalisé sur une échelle 0-100 avec 4 catégories pondérées :

CatégoriePoidsMétriques incluses
Qualité conversationnelle40 %Satisfaction, Compréhensibilité, Hallucinations, Infos incorrectes
Qualité audio20 %MOS agent, MOS candidat
Performance technique20 %Latence moyenne
Qualité des échanges20 %Interruptions agent, Interruptions candidat, Questions répétées

Grades :

ScoreGrade
≥ 90A
≥ 85B+
≥ 75B
≥ 60C
< 60D

Dernière mise à jour : Mars 2026

Documentation Omogen