È possibile che UX e assistenza vocale, in questo momento, facciano a pugni? Che l’UX freni l’assistenza vocale? È possibile che il più grande ostacolo all’uso degli assistenti vocali e delle interfacce conversazionali sia proprio l’user experience, l’esperienza d’uso? Proprio l’assistenza vocale che ha come obiettivo quello di allargare il bacino di utenza a tutti per la facilità d’uso, in realtà pone degli ostacoli al suo uso quotidiano? E dunque potrebbe essere questo il motivo per cui alcuni miei colleghi guardano con diffidenza agli assistenti vocali e al mio blog? È questa la ragione di un certo scetticismo?

L’esperienza delle persone non è ancora ottimale. O, come sono personalmente convinto, l’esperienza e l’uso non rispecchiano le aspettative. Ma il lancio dello smartspeaker Google Home e del software Google Assistant hanno tracciato una via che durerà più di quanto si possa prevedere.

Il blog è nato proprio per parlare di queste cose ed essere consapevoli. Ed è per questo che ripercorro con voi l’articolo di Rebecca Sentance, con le mie riflessioni personali.

Le prime parole di Siri

Se si esegue una ricerca vocale in inglese, “Quando è stato lanciato Siri?” Google rimanda all’introduzione che ne da Wikipedia:

Siri è l’assistente digitale sviluppato dalla Apple Inc. presente nei dispositivi iOS, macOS, watchOS e tvOS, quali iPhone, iPad, Mac, Apple Watch e Apple TV.

In italia, invece, Google Assistant rimanda ai vari link e parla solo se si chiede “Cos’è Siri?”.

Siri, l’assistente vocale di Apple, come sappiamo è nata con il lancio dell’iPhone 4S nell’ottobre 2011.

Da allora si è cominciato a parlare di comandi vocali non più come fantascienza ma come vera e propria realtà. Solo da qualche anno a questa parte se ne parla più frequentemente. Si veda la nascita di questo blog. E posso testimoniare che rispetto ai miei esordi, nel 2015, il numero di articoli presenti, sul web, sul tema sono sempre più numerosi.

Nel campo della ricerca, poi, la ricerca vocale è indicata come una delle principali tendenze che daranno forma all’industria, nell’immediato prossimo futuro.

Chi usa l’assistenza vocale?

Ma quanti di voi stanno utilizzando realmente e quotidianamente l’assistenza vocale? Chi risponde positivamente, probabilmente sarà una minoranza. Soprattutto si tratta di “addetti ai lavori.” Tra questi molti scettici che stressano il sistema, lo mettono in difficoltà l’assistenza vocale e tendono giustamente ad evidenziare, anche giustamente, i difetti.

Poi ci saranno anche tanti “makers” che smanettano su ogni novità tecnologica e questi sono coloro che diffonderanno davvero questa tecnologia tra le persone.

La maggior parte ci avrà giocato forse qualche minuto, per vedere l’effetto che fa e poi ha abbandonato la diavoleria che risponde solo ad una certa tonalità e ad un certo modo di dire “Ok Google” in perfetto american slang. E non vi sembri strano che la pronuncia corretta di Google sia tra le competenze di una minoranza di persone.

Senza dover disturbare i sondaggi, il fatto che si vedono, nel 2018, persone alla guida che usano il proprio smartphone usando vista e tatto, significa che neppure siamo arrivati al vivavoce. Altro che assistenza vocale.

Se Google fosse una persona?

Ma cosa accadrebbe se Google fosse una persona reale? È quello che si è immaginato in una memorabile webserie, di qualche anno fa, dal titolo “If Google Was a Guy”.

In uno spezzone una ragazza chiede quanto sia grande il Serengeti. Per la cronaca “La pianura di Serengeti è una regione di circa trentamila chilometri quadrati, costituita da prateria, savana e boschi situata in Africa orientale”.

Al quale l’assistenza vocale, non riconoscendo la pronuncia corretta, in inglese, confonde Serengeti con spaghetti. Il che fa infuriare la ragazza.

Il video vuole far ridere e ci riesce. Ma nella vita reale un errore di questo genere non fa ridere. Anzi. Porta la persona ad arrabbiarsi sul serio e ad abbandonare l’uso degli assistenti vocali.

Nonostante il potenziale rivoluzionario dell’interfaccia vocale, l’esperienza dell’utente, la user experience non è ancora al massimo della forma.

Conversazioni comiche o frustranti?

Bisogna assolutamente dire che gli assistenti vocali hanno fatto passi da gigante in termini di accuratezza del riconoscimento vocale negli ultimi anni. Le intelligenze artificiali di Google e Microsoft si avvicinano al 95% di riconoscimento. Che è poi il livello umano. Anche noi ci perdiamo il 5 percento delle conversazioni e compensiamo con altre capacità.

Le interfacce vocali sono progettate per imitare le conversazioni umane e così, quando conversiamo con un assistente vocale, si entra in un contesto che, fino ad oggi, è stato esclusivamente umano. Un contesto che è completamente diverso rispetto a quando ci mettiamo davanti ad un “disumano” schermo.

Forse un romano della Roma Antica comprenderebbe meglio un assistente vocale rispetto a noi. Per i Romani di allora la parola non era un’esclusiva umana, nel senso ampio che abbiamo oggi. Per gli antichi romani gli schiavi, per esempio, erano strumenti parlanti, per nulla paragonabili ad un essere umano. Definiti appunto Res vivente, (res significa, in latino, cosa) Anche i barbari erano coloro che balbettavano parole insensate e molto più vicini ad animali, appunto, che ad essere umani.

Forse, a ben pensare, noi ascoltiamo e trattiamo questi avanzati assistenti vocali con lo stesso disprezzo.

Aspettative molto alte

Lo dicevo due anni fa al WIAD Palermo 2017. I nostri punti di riferimento per l’assistenza vocale sono film di fantascienza e fumetti. Il nostro immaginario ha aspettative tanto alte quanto irreali rispetto alle capacità di questa tecnologia. Eppure più queste conversazioni migliorano, più ci aspettiamo che gli assistenti vocali digitali si comportino come umani. E quando per una qualche ragione non ci capiscono, subito ce ne allontaniamo.

Come se poi fosse stato naturale iniziare nuovi lavori stando davanti ad uno schermo. Cosa che ancora non tutti sono in grado di fare. Come se l’uso di PC fosse davvero così diffuso da permeare la totalità dell’Umanità. Per chi oggi fa uso quotidiano di questi strumenti, ricordo che sono passati decenni dal primo contatto con un computer dove la maggior parte delle persone ha iniziato a giocare. Nel tempo abbiamo imparato a farci altro, oggi sappiamo, grosso modo, cosa possono fare e come funzionano. E come rispondono.

Portare l’interazione all’interno del nostro mondo conversazionale (che ripeto ancora è un mondo complesso) significa cambiare completamente prospettiva. All’improvviso entrano in gioco una serie di aspettative completamente nuove. Vogliamo e pensiamo che i nostri assistenti vocali pensino, rispondano e ragionino come gli umani e l’esperienza dell’utente è prevedibilmente insufficiente.

Tocca all’architettura dell’informazione conversazionale colmare questo vuoto, come immagino stia accadendo oltreoceano. Insieme ad una moltitudine di professionalità che ruotano intorno all’assistenza vocale, tra figure più tecniche e figure prettamente umanistiche.

Un giorno vivremo come nel film HER e ci ritroveremo a parlare con i nostri assistenti vocali. Ma se dai romani ad oggi sono passati 2000 anni, da Google Assistant ad Her ne passerà del tempo. Non dico altri duemila anni, ma qualche decennio sicuramente.

Scelta e contesto

I problemi sono tanti e diversi. Le interfacce vocali danno l’illusione dell’interazione umana. Illusione, straordinaria, potente, ma pur sempre un’illusione.

Per far funzionare gli assistenti vocali le persone devono pronunciare esattamente le parole e i comandi giusti. E queste parole non sempre sono intuitive. Non solo. Ma gli assistenti vocali non mantengono sempre il contesto di conversazione come facciamo noi, per esempio, con il principio di cooperazione Grice.

Al momento le migliori interazioni sono limitate agli acquisti. Ecco perché il grande successo di Amazon Echo. I passi successivi ad un dialogo, invece, non sono soddisfacenti. Ecco perché tutti gli altri inseguono.

La semplicità non garantisce necessariamente l’usabilità e la mancanza di funzionalità disponibili può essere spesso più frustrante che utile. Nel momento in cui gli utenti non riescono a ottenere facilmente ciò di cui hanno bisogno con un’interfaccia, gli assistenti vocali verranno disattivati, indipendentemente da quanto efficientemente consentano loro di riordinare gli asciugamani di carta.

Fiducia dell’utente vincente

Ma la sfida più importante è quella di ottenere e mantenere la fiducia delle persone che fanno uso di questa tecnologia.

Nelle giuste circostanze, l’interazione vocale uomo-macchina è uno strumento molto utile. Purtroppo bastano un paio di esperienze negative per far mettere da parte, per sempre, le interfacce vocali.

Lo stesso Greg Hart, vicepresidente di Amazon, responsabile di Echo e Alexa, ha dichiarato che

la creazione di un assistente vocale in grado di rispondere a ogni possibile query è un problema davvero difficile.

Forse è qui che, nel 2011, Apple ha sbagliato. Ha sbagliato nell’invitare le persone a chiedere qualsiasi cosa a Siri. Forse già dalla sua nascita Siri era destinata a fallire.

Oggi sappiamo, per certo, che i comandi vocali funzionano meglio con vincoli specifici e ristretti. Le nostre aspettative sono ancora alte ma gli sviluppatori pongono dei freni proprio per riconquistare la fiducia degli utenti.

Per non parlare poi del suono della voce, le nostre pronunce, gli aspetti di fisica acustica, pongono degli ostacoli all’esperienza d’uso.

UX e assistenza vocale – Conclusioni

Sebbene in questi giorni stia usando Google Assistant e già ho amici che hanno acquistato i primi interruttori ad interfaccia vocale, io stesso non ho messo tra le mie priorità l’uso dell’assistenza vocale. Non sempre ho il piacere di ripetere più volte “ok Google” per non arrivare a quello che mi aspetto di trovare.

Ogni volta che una persona rinuncia ad usare l’assistenza vocale è un fallimento. Certo. Ma questi fallimenti frenano non fermano.

Oggi, mentre la discussione è ferma a quanto bene o male funzionino, a quanto pericolosi possano essere, si sta aprendo un mercato enorme di oggetti parlanti.

In un modo o nell’altro presto avremo nelle nostre case questi oggetti della domotica e impareremo ad usarli.

Personalmente, piuttosto che giudicare i fallimenti, sono felice di partecipare a questo tempo. E resto a guardare tra l’incuriosito e il meravigliato. Sono felice di poter vedere i primi passi (diciamo quelli più consistenti) di questa tecnologia che mi affascina. E persino gli errori mi fanno tenerezza. Poter partecipare con il mio blog, a questa trasformazione, per me è una soddisfazione che supera persino la gioia di sapervi miei lettori.

Con i miei articoli spero solo di poter dialogare e conversare con altri essere umani sul tema. E intanto, grazie sempre di essere arrivato fin qui.

Pin It on Pinterest

Share This