Testa Conversational AI-agenter

27 maj 2025 • 3 minuter lästid

Upptäck hur du effektivt testar och förbättrar conversational AI-agenter med robusta utvärderingskriterier och konversationssimuleringar.

Kontakta försäljning

När konversationsagenter går live, hur övervakar du dem i stor skala? Hur upptäcker du när de inte beter sig som de ska? Och när du har gjort ändringar, hur testar du dem?

Dessa frågor formade vårt arbete med Alexis — vår dokumentationsassistent driven av Conversational AI. När Alexis utvecklades byggde vi ett system för att övervaka, utvärdera och testa agenter, baserat på utvärderingskriterier och konversationssimuleringar.

Lägga grunden: Tillförlitliga utvärderingskriterier

Att förbättra en agent börjar med att förstå hur den beter sig i verkligheten. Det innebar att förfina våra utvärderingskriterier — se till att de var tillräckligt exakta och tillförlitliga för att övervaka agentens prestanda. Vi definierar en misslyckad konversation som en där agenten antingen ger felaktig information eller inte hjälper användaren att nå sitt mål.

Vi utvecklade följande utvärderingskriterier:

Interaktion: är detta en giltig konversation, ställde användaren relevanta frågor, var konversationen logisk?
Positiv interaktion: gick användaren därifrån nöjd, eller var de förvirrade eller frustrerade?
Förstå grundorsaken: identifierade agenten korrekt användarens underliggande problem?
Lösa användarens fråga: löste agenten användarens problem eller erbjöd en alternativ supportmetod?
Hallucination: hallucinerade agenten information som inte finns i kunskapsbasen?

Om Interaktion misslyckas, är konversationen i sig inte giltig. Om något annat kriterium misslyckas, undersöker vi vidare. Undersökningen vägleder hur vi förbättrar agenten. Ibland handlar det om att förfina verktygsanvändning eller timing. Andra gånger handlar det om att lägga till skyddsåtgärder för att förhindra icke-stödda åtgärder.

Iterera med självförtroende: Conversation Simulation API

När vi har identifierat vad som ska förbättras, är nästa steg att testa. Det är där vår Conversation Simulation API kommer in. Den simulerar realistiska användarscenarier — både från början till slut och i riktade segment — och utvärderar automatiskt resultaten med samma kriterier som vi använder i produktion. Den stöder verktygsmockning och anpassad utvärdering, vilket gör den flexibel nog att testa specifika beteenden.

Testa Conversational AI-agenter

Lägga grunden: Tillförlitliga utvärderingskriterier

Vi utvecklade följande utvärderingskriterier:

Iterera med självförtroende: Conversation Simulation API

Vi använder två tillvägagångssätt: