giving chatbots the gift of voice

Vogliamo dare la voce al vostro chatbot

I chatbot sono ormai diventati comunissimi. Secondo Gartner, che analizza i mercati della tecnologia, ci sono al momento tra 1500 e 2000 società in tutto il mondo che offrono una piattaforma in grado di aiutare i loro clienti a sviluppare applicazioni di chatbot. Naturalmente non tutte sono di buona qualità, e di conseguenza ci sono ancora molti bot che rispondono solo a domande secche, senza condurre una vera conversazione con l’utente. Ma altri hanno invece la capacità di sostenere un dialogo, e una infrastruttura semantica basata su AI che li mette in grado di capire veramente quel che scrivono gli utenti, tenendo conto del contesto e con la possibilità di fare domande successive se il significato iniziale non è chiaro.

Ma anche questi chatbot evoluti usano in genere solo canali testuali. Infatti, una chat si fa scrivendo sulla tastiera, su un sito web, o una piattaforma dedicata come Facebook Messenger o WhatsApp, o perfino con SMS. Questi canali vanno bene per applicazioni di marketing, ma quando si parla di assistenza ai clienti la voce, e in particolare la voce sulla rete telefonica, è ancora molto importante.

Nonostante la tecnologia sia disponibile, assistenti virtuali abilitati alla voce sono ancora una eccezione. Non per molto però: l’evoluzione della specie verso la voce è in corso, e presto i cosidetti omni-bot (che funzionano altrettanto bene per il testo scritto e la voce) saranno i vincitori della competizione per il mercato dell’automazione del servizio al cliente.

Perché la voce?

Non c’è dubbio che alla gente piace mandare messaggi di testo. Molto spesso, è la maniera più facile di comunicare. Ma l’abitudine è abbastanza nuova, resa possibile da una tecnologia sviluppata recentemente. Ed è importante sopratutto per comunicazioni personali, meno per interagire con i servizi al cliente. Fino a 10 anni fa infatti il servizio ai clienti era solo via telefono, e questo rimane il canale più importante. Dopo tutto, se ti arrabbi per come (non) funziona un prodotto o un servizio, è difficile sfogarsi scrivendo su una tastiera: potresti scrivere TUTTO MAIUSCOLO, ma per qualche ragione, non è la stessa cosa…

Scherzi a parte, una telefonata a un rappresentante della ditta è il modo migliore per avere conferme immediate, e parlare ci consente di esprimere quel che vogliamo molto più in fretta che scrivere. Se sei veloce a scrivere su una tastiera arrivi magari a 40 parole al minuto, ma una persona normale dice almeno 150 parole nello stesso tempo. Inoltre, come ultima risorsa quando ci sono dei problemi che non vengono risolti, la gente prende il telefono e fa una telefonata, quindi si può dire che, se il numero di telefonate diminuisce come percentuale di tutte le interazioni, la loro importanza aumenta.

Ci sono anche momenti in cui si può parlare, ma non mandare un messaggino, per esempio con il viva voce quando sei in macchina. Anche se, in effetti, ci sono altre occasioni in cui non si può usare la voce, come a un concerto rock…

Quindi, la voce, e in particolare la voce sulla rete telefonica, ha ancora un ruolo importante nel servizio al cliente: telefonare a un numero verde è ancora il modo più facile per comunicare. Aggiungere supporto alla voce per il chatbot è perciò il modo migliore per espandere la tecnologia conversazionale al 50% o più delle comunicazioni che al momento non possono essere servite.

La sfida della voce

Per i sistemi di AI conversazionale, la voce è più difficile del testo. È vero che la voce al giorno d’oggi si traduce abbastanza bene in testo con un sistema di ASR (automatic speech recognition), e la trascrizione può essere usata come input al chatbot, ma questo è comunque un’interfaccia in più che deve essere integrato nel sistema. Ci sono anche vari servizi di TTS (text-to-speech) che possono essere usati per convertire le risposte del chatbot in voce, un altro passo in più da fare.

La base di conoscenza e l’addestramento dell’intelligenza artificiale non sono completamente gli stessi per testo e voce: a voce usiamo espressioni e giri di parole che non useremmo scrivendo, e viceversa. D’altra parte, scrivendo è normale fare errori di ortografia, mentre un ASR non ne fa (magari, raramente, capisce fischi per fiaschi, ma i fischi almeno sono scritti correttamente). Ma questi problemi possono essere risolti con un migliore addestramento della AI: noi di Interactive Media lo sappiamo, visto che supportiamo sia la voce che il testo nei nostri agenti virtuali conversazionali.

Più problematico è che il sistema dev’essere molto veloce per la voce: mentre in una chat un intervallo di tempo di una decina di secondi tra quando si manda un messaggio e quando arriva la risposta è completamente normale, in una conversazione vocale è inaccettabile. E quindi, l’integrazione deve avere un’architettura solida e veloce. E i servizi di ASR non sono tutti uguali: mentre l’accuratezza della trascrizione è molto buona in tutti gli ASR più recenti, alcuni sono migliori per certi compiti: per esempio  Google Speech APIs è il migliore a riconoscere indirizzi, data l’integrazione con Google Maps. Quindi può essere importante usare ASR diversi per diverse parti dell’applicazione.

C’è poi la rete telefonica con cui bisogna integrarsi. Questo non è semplicissimo usando il protocollo SIP, ed estremamente difficile usando i vecchi protocolli TDM. Certo, ci sono servizi che offrono una interfaccia RESTful per rendere le cose più facili, ma ad alti volumi diventano cari. Senza contare che normalmente il cliente finale avrà un’infrastruttura già pronta in 9 casi su 10: un centralino privato con cui collegarsi, e c’è una grande variabilità nelle modalità di integrazione con centralini diversi.

Infine, se la chiamata non finisce con la soddisfazione dell’utente, dovrà essere passata a un agente umano. Questo significa non solamente trasferire la chiamata al Contact Center (in genere con SIP), ma anche passare le informazioni di contesto dell’interazione al software del Contact Center, che spesso usa un’interfaccia proprietaria.

Come si vede, vari fattori contribuiscono a rendere la voce e la telefonia per chatbot un problema complesso.

Come possiamo aiutare

A Interactive Media, abbiamo una lunga esperienza di applicazioni vocali e integrazione con la rete telefonica. Lo facciamo dal 1996, e nel tempo ci siamo integrati con molte diverse tecnologie di telefonia. Abbiamo anche la nostra piattaforma vocale, che col tempo è diventata estremamente solida e ricca, evolvendosi per incorporare le architetture più efficaci e i protocolli più comuni e collegandosi con i Contact Center più diffusi.

Facciamo anche applicazioni di AI conversazionale, con vari grossi sistemi attivi da clienti importanti, sia per la voce che per la chat. Questo ci ha dato il modo di capire le funzionalità più importanti della piattaforma di telefonia, e ottimizzarle per la comunicazione con i chatbot.

Quindi, la nostra idea è semplice: aiutare i chatbot ad aggiungere le interazioni vocali. E abbiamo il nostro software nel Cloud per questo: con una API estremamente semplice, il servizio dà l’integrazione con la rete telefonica o un centralino privato, la trascrizione della voce (anche in italiano, si capisce), la traduzione del testo in voce, con molte voci diverse tra cui scegliere, e l’integrazione con il Contact Center. Visitate https://www.phonemybot.com e scriveteci o telefonateci per saperne di più.

Dì cosa hai in mente

O seu endereço de e-mail não será publicado.