Peter Morville dedica un post all’Architettura dell’informazione conversazionale e ritiene che con l’aiuto dell’architettura dell’informazione gli assistenti vocali miglioreranno e, aggiungo io, riceveranno la giusta diffusione. Questo non significa che le interfacce vocali sostituiranno o addirittura cancelleranno le interfacce grafiche. Morville è scettico a riguardo. Io sono convinto che per alcuni contesti l’interazione vocale sarà utile e migliorerà la produttività.

Architettura dell’informazione conversazionale

Peter Morville, il padre dell’architettura dell’informazione, racconta di come l’assistenza vocale sia al centro dell’attenzione di un gran numero di persone e di quanto le aziende stiano investendo in questa tecnologia.

Morville lo dice. E’ scettico e proprio perché scettico ha comprato, secondo me, l’assistente vocale più interessante, Amazon Echo. Certo adesso dovrebbe provare Google Home e Google potrebbe ascoltare quanto dice Morville. Ma andiamo con ordine.

Sia la luce

Morville, nell’utilizzare Echo, ha apprezzato le funzioni musicali, che sono le più immediate, Spotify e Music Prime. In aggiunta ad una sveglia se dovesse addormetarsi.

Tuttavia, troppo spesso, la nostra conversazione va in questo modo:

Peter (al buio): “Alexa, accendi la lampada.”
Alexa (accende la lampada): “Va bene.”
Susan (urla dalla cucina): “Cosa?”
Peter (urla di nuovo): “Niente, stavo solo parlando con Alexa.”
Alexa: “Non sono del tutto sicuro su come aiutarti in questo.”
Susan (urla dalla cucina): “Non dimenticare di ringraziare Alexa.”
Alexa: “Mi spiace, non so la risposta.”

In questo dialogo a tre, a me pare importante sottolineare due cose.

  • L’assistente vocale entra in un contesto di cui non fa (ancora) parte.
  • Un assistente vocale ti ascolta alla lettera.

Poi scrive

Il problema più grande di Alexa è che lei mi fa sentire stupido. Alexa mi costringe ad ammettere che non riesco a ricordare il nome di una delle mie canzoni preferite di Vienna Teng.

Su Spotify, posso cercare Vienna Teng, selezionare Warm Strangers, e avviare Harbor senza interruzione. Questa è la magia del Recognition over recall. Ed è difficile da fare con un interfaccia vocale.

Esperienza sonora? Quale esperienza?

Quale esperienza ti fa vivere l’assistente vocale? Evidentemente questa esperienza non è ancora stata progettata. Gli ingegneri non sono tenuti a pensare all’esperienza dell’utente se non per le funzioni proprie di funzionamento, spinti alla soluzione di numerosi problemi. Nessuno al momento si è (ancora) chiesto quale esperienza vive l’utente. O quanto meno nessuno se lo è chiesto in termini di ricerca antropologica e culturale.

Ancora, Morville

Che cosa posso chiedere? Qual è la sintassi corretta?

In teoria la macchina, l’assistente vocale, dovrebbe apprendere dal nostro linguaggio. Ma ad oggi l’assistenza vocale non comprende il contesto di quello che dice l’uomo.

Un assistente vocale non può impegnarsi in una conversazione reale. Sono tante le varianti e le regole (non rispettate) che coinvolgono una conversazione. Ne approfondisco gli aspetti sul post  “Conversazione, assistenza vocale, linguaggio e contesto sociale“.

Così l’onere cognitivo ricade su di noi. Lei ci fa sentire stupidi.

L’onere cognitivo ricade su di noi, sull’essere umano. L’uomo, infatti, si adatta più velocemente della macchina. La capacità di calcolo dei nostri telefonini o di dispositivi come Google Home non sono equiparabili al nostro cervello. E quindi… finisce che siamo noi a studiare lo strumento. Siamo noi che vogliamo capire come funziona, come può funzionare al meglio. Cerchiamo e ricerchiamo l’affordance dell’assistenza vocale.

Progettare un assistente vocale

Peter Morville lancia degli spunti da approfondire. Alcune linee guida che l’architettura dell’informazione sonora e questo blog dovremo seguire e approfondire nel tempo.

Potrebbe essere utile se Alexa avesse una architettura dell’informazione distinguibile. Se potessimo selezionare una categoria come la musica, le notizie, o lo shopping. Potrebbe essere più facile navigare in ogni sottoinsieme di casi d’uso e comandi.

Alexa dovrebbe aiutare a capire e ricordare. Per fare questo Peter Morville invita Alexa a interfacciarsi con Siri (cosa che non è possibile perché nessuno delle due aziende, al momento, lo prevede)  o imitarla per una interazione multimodale (acustico/visivo).

Quando si chiede una canzone a Siri, infatti, l’assistente vocale di Apple risponde proponendo visivamente, sullo schermo dell’iPhone, la canzone presente nell’app iTunes.

Immaginate che cosa potrebbe fare Alexa con un ampio display sulla parete del soggiorno. Mentre ha solo i vantaggi dell’audio (ad esempio, l’utilizzo multi-room, l’accessibilità per i non vedenti), Alexa, senza lo schermo, non può renderci utenti forti. Chiedere non è sufficiente. Deve anche mescolare input e output audiovisivi per consentire una migliore visualizzazione e una migliore ricerca.

Alexa ha bisogno di una architettura delle informazioni multi-canale (cross-channel) che abbracci l’interazione multi-modale.

Cross channel e Multi-Channel e la luce fu!

peter-morville-cit

Per spiegare la differenza tra Cross channel e multi-channel è necessario riprendere un articolo di Luca Rosati e Andrea Resmini autori del libro ancora attualissimo, Architettura dell’informazione pervasiva. Rosati e Resmini lavorano su questi temi dal 2007.

A me pare che Morville inviti ad una pervasività dell’architettura dell’informazione sempre più spinta. Dove il sonoro e la voce sono e devono essere solo una parte del sistema.

Peter Morville e la sua compagna dopo un mese hanno rinunciato ad Alexa, perché hanno ritenuto difficile l’uso e pensano che Echo debba essere ancora migliorato.

Per ora, i nostri telefoni, tablet e computer portatili offrono una migliore esperienza. Ma io credo che Alexa vedrà presto la luce con un piccolo aiuto da parte dei suoi amici dell’architettura dell’informazione.

Ecosistemi di conversazione

E’ tutto l’anno che scrivo riguardo interfacce e nuove frontiere. E senza nessun assurdo tecno-entusiasmo mi pare che i segnali siano molto forti.

ChatBot

Peter Morville conferma che non si può parlare dell’interazione vocale tra uomo e macchina senza parlare dei servizi di messaggistica, già esistenti e che fanno uso di Intelligenza artificiale (chatbot).

In Italia ancora non sono molto diffusi, ma esistono già assistenti intelligenti che aiutano l’utente che ha delle specifiche necessità. Operator è un chatbot che ti connette con gli esperti per scoprire e comprare ciò che ami.  Magic è un numero di telefono a cui inviare SMS per ricevere tutto quello che vuoi, su richiesta e senza problemi.

Oppure ci sono le intelligenza artificiali con supporto umano come Facebook M.

Morville ricorda anche i chatbot usati dai media, ma questi, già alla loro uscita, hanno creato più fastidio che consenso tra gli utenti. Aumentando, secondo me, lo scetticismo nei confronti di questa tecnologia.

La questione mi pare sempre la stessa. Ossia che in tanti, anzi, in troppi, pensano, o vogliono pensare,  che un chatbot, o un assistente vocale, o l’intelligenza artificiale, possano fare qualsiasi cosa. Così non è.

la chat occuperà una nicchia specializzata nell’ecosistema conversazionale più ampio.

Le buone pratiche di bot e AI: il servizio

Morville porta ad esempio il chatbot CourtBot. Si tratta di un progetto creato dalla Code for America che invia SMS alle persone che devono avere a che fare con il tribunale o la polizia. Il bot ricorda le date del processo, la scadenza per il pagamento delle multe e così via. Il ChatBot rende un servizio.

Ma il bot non fa tutto e non si organizza da solo. Il bot è solo una delle tante parti dell’ecosistema. L’ecosistema è molto più ampio, in un percorso cross e multi channel che coinvolge agenti di polizia, citazioni di carta, il bot stesso, un call center, un sito web e il palazzo di giustizia.

La soddisfazione degli utenti è raggiunto quando le parti si incastrano per creare un intero ecosistema.

Deus ex machina

E’ inevitabile che le forze della tecnologia ci spingano ad usare nuovi strumenti e a vivere diversamente. Ma non vivremo mai in un film. Non dobbiamo affrontare la tecnologia con la Tecnologia ma con la Cultura.

Mentre io credo che la consapevolezza sia tra le forze più dirompenti per plasmare il nostro futuro, non sto trattenendo il fiato per il deus ex machina della super-intelligenza. Consapevolezza e conversazione sono tra le cose più complesse, contestuali, disordinati e incorporati che possiamo conoscere.

L’intelligenza artificiale ha bisogno dell’Architettura dell’informazione

Lo sa Morville, ma lo sa bene ciascun architetto dell’informazione, che l’Uomo crea confusione. Ma se già sappiamo che il Design è una conversazione sappiamo pure che

Per trovare quello che ci serve o per fare le cose, un sito web è un conversatore megliore di qualsiasi bot.

Un linguaggio naturale debole ci farà andare solo lontano. Alexa non capisce il significato o il contesto, così le nostre “conversazioni” richiedono organizzazione, progettazione dello spazio e interazione multimodale.

Un po’ di chiarezza e di realismo

Spesso chi pone dubbi sull’assistenza vocale ne parla in relazione agli assistenti vocali che ha visto al cinema o in televisione, o peggio ancora, nei fumetti.

La colonizzazione dello spazio è sempre stato un mito della cinematografia fantascientifica.  Ma chi paragona le spedizioni spaziali della NASA a quei film?

Paragonare Siri, Cortana, Alexa e tutti gli altri assistenti vocali a Jarvis di Iron Man (un fumetto), a Her o a Deus Ex Machina (film di fantascienza), sarebbe come paragonare la NASA alla flotta stellare di Star Wars, lo Space Shuttle all’ USS Enterprise (NCC-1701) del capitano Kirk di Star Trek.

Allora se vogliamo parlare e capire l’assistenza vocale, i risultati raggiunti, le opportunità e le potenzialità dello strumento, dobbiamo proprio toglierci dalla testa la letteratura, i film e i cartoni animati di fantascienza che fanno riferimento a questa tecnologia.

La realtà è che uno smartphone riesce a fare operazioni straordinarie. La realtà è che, come dice Peter Morville, i nostri telefonini, al momento, fanno quello che pensiamo ci basti. I telefonini soddisfano, oggi, i bisogni della maggior parte delle persone. Ma la realtà è anche che un dispositivo elettronico alto un palmo di mano non riuscirà a sostituire il nostro cervello. Almeno, non nel breve e medio periodo.

Pensiamo che l’assistente vocale non sia  utile perché la maggior parte delle persone ha imparato a chattare, inviare messaggi e telefonare anche mentre guida, (quasi) senza guardare. Il pollice di alcuni ragazzi e ragazze ha una velocità che sfida le leggi dell’ergonomia. Per chi guida sarebbe più logico guidare e basta, oppure usare un vivavoce. Sarebbe più sicuro e produttivo usare un assistente vocale, che seppur lontano dalla Supercar KITT, potrebbe rendere la guida sicura e aiutare comunque in molte attività. Eppure così (ancora) non avviene.

La realtà è che l’esperienza dell’assistenza vocale non è ancora soddisfacente. La realtà è che gli assistenti vocali devono essere migliorati e testati ulteriormente.

E ad Oriente? WeChat

Mentre l’occidente vive questo scetticismo diffuso, in Cina l’uso dei bot è cosa abbastanza comune. Ed è guardando a questo mercato che si investe in questo campo. Gli Stati Uniti e l’Occidente sviluppano assistenza vocale, ma non ne fanno uso.

I chatbot stanno influenzando le aziende.

Certo, a differenza dell’internet occidentale, l’Internet cinese è regolamentato e WeChat, in buona sostanza, è una piattaforma di messaggistica. I chatbots che funzionano su WeChat sono più simili ad applicazioni leggere dove è possibile prenotare un dentista o svolgere attività più complesse. Ma gli usi insoliti sono tanti.

Michael Yuan, autore del libro Chatbots: Building Intelligent Bots, spiega come i bot sono percepiti in Cina:

Se si avvia un business in Cina oggi, si creerà un wechat pubblico bot ben prima di avere un sito web.

Sorprendentemente, vi è una nuova generazione di società di contenuti finanziati VC che operano esclusivamente in wechat – non hanno nemmeno i siti web pur essendo valutati decine di milioni di dollari.

Questo non significa che i bot avranno lo stesso successo nel nostro caos occidentale. I fallimenti di Kinect della Xbox o del bot Tay della Microsoft sono notevoli e da tenere ben presenti. Quello che possiamo dire è che

I chatbots sono ancora in grado di fare un’enorme quantità di cose, da semplici conversazioni alla pianificazione e analisi dei contenuti. Il futuro è sulla buona strada!

Ma stiamo andando troppo lontano ed è bene concludere tornando a noi e all’architettura dell’informazione conversazionale.

La singolarità

Peter Morville conclude ricordando che invece della catastrofica estinzione dell’uomo sostituita dall’intelligenza artificiale si potrebbe vivere una nuova era tecnologia grazie all’architettura dell’informazione sonora. Studio del contesto, progettazione dell’esperienza, progettazione cross canale e multisensoriale.

La singolarità potrebbe essere vicina. Che ne pensi Alexa?

Insomma, il nostro futuro sta tutto nella nostra umanità, nella nostra capacità singolare di mettere l’Uomo al centro, nella nostra unicità, nella nostro essere singolare, addirittura singolare-plurale.

Essere consapevoli di questo, certamente, aiuterà ad usare meglio gli strumenti che la tecnologia ci offrirà.

Architettura delle conversazioni. I segreti di Google

Nov 20, 2017 |

I segreti della progettazione conversazionale di Google sono le buone pratiche da seguire per progettare conversazioni per assistenti vocali. Analizzare queste pratiche e metterle a sistema sarà compito dell’architettura dell’informazione e di quello che io chiamo architettura dell’informazione sonora. Discipline, insomma, che hanno e avranno a che fare (sempre più) con l’esperienza umana, con l’organizzazione delle informazioni, con l’esperienza uomo-macchina, con la robotica e la domotica.

La progettazione di assistenti vocali è un lavoro trasversale che vedrà la partecipazione di molteplici figure professionali umanistiche con influenze tecniche. Come spiegava, appunto, Piero Savastano nella sua intervista rilasciata al blog.

Perché se c’è un segreto per progettare conversazioni è uno. E non è un segreto. Cioè riuscire a rendere le macchine davvero umane. O, quanto meno, far sembrare le macchine più umane possibile.

A sostenerlo, non sono da solo. Lo dice anche Mark Wilson sulla rivista Fastcodesign che sottolinea 3 segreti di Google per progettare conversazioni.

Le conversazioni di Google

Quest’anno Google ha presentato una serie di prodotti dedicati all’uso dell’assistenza vocale e in particolar modo di Google  Home. Alphabet, l’azienda madre di Google, infatti, ha aperto il suo business al nuovo mercato della domotica. Un mercato già avviato da tempo a cui Google e Amazon stanno dando una notevole accelerazione.

Progettare conversazioni perfette

Sembrerebbe che parlare con le macchine sia qualcosa di intuitivo per tutti. In quanto essere parlanti non dobbiamo essere noi a leggere il manuale delle istruzioni ma è la macchina che deve imparare a parlare come un essere umano. L’Uomo non deve imparare alcun linguaggio complicato per parlare ad uno smart speaker. Basta premere un pulsante e chiedere.

Questo, almeno, in teoria. Perché seppure in teoria non dovrebbero esserci problemi, alcune difficoltà tecniche e psicologiche fanno da barriera. Nonostante il grande miglioramento di prestazioni di questa tecnologia, ancora oggi non tutte le conversazioni vanno a buon fine e i bot falliscono.

È capitato a tutti, infatti, di provare l’assistenza vocale di uno smartphone qualunque e sperimentare l’esperienza di non essere capiti. I motivi sono vari. Forse il nostro smartphone non è all’altezza della situazione e si blocca. Forse il microfono del nostro dispositivo funziona male e non percepisce bene la nostra voce. Quindi l’assistente vocale non sente proprio. Altre volte l’assistente capisce altro rispetto a quello che abbiamo chiesto.

Architettura dell’informazione conversazionale

Come scrivevo l’uso degli assistenti vocali porta a pensare che siamo noi che funzioniamo male e quindi ci stanchiamo presto dell’uso.

L’assistenza vocale non fa ancora parte del nostro contesto, dei nostri ecosistemi. E quando assistiamo a dimostrazioni su questa tecnologia è evidente che si trovano in ambienti ideali, luoghi silenziosi, persone solitarie, o famiglie che parlano poco.

L’inserimento nel nostro ecosistema degli smart speaker, come parte integrante della nostra quotidianità, non sarà cosa che avverrà in breve tempo. E per questo motivo sostengo che l’assistenza vocale non si affermerà da se, come tecnologia assestante. Ma altre industrie, altri ambiti di conversazione, ci abitueranno al loro uso, come accessorio.

Ci vorrà anche un patto sociale e culturale che permetta a tutti di accettare gli assistenti vocali nella nostra vita. Bisognerà accettare il fatto che entrando in una casa, ad un certo punto, un assistente vocale ci rivolgerà la parola. E magari eseguirà un nostro comando. Altro che case invisibili.

Progettare conversazioni complesse

Le nostre conversazioni si attuano all’interno di un complesso sistema di regole. Sostenere una conversazione con l’altro non è certamente una azione facile. Generalmente i parlanti sono degli esperti nelle conversazioni. Il nostro linguaggio è il risultato di migliaia di anni di conversazioni. Il nostro parlato si è sviluppato ed evoluto ed è in continuo mutamento. È  per questo motivo che le persone hanno grandi aspettative a riguardo.

Alla conferenza I / O di Google si è parlato a lungo di conversazioni. Ciascun relatore ha dato la sua ricetta per la conversazione perfetta. Qui riporto quanto Wilson ha estrapolato tra le pratiche migliori per una conversazione presentate alla conferenza.

Impara dai grandi dialoghisti

Padgett paragona le interfacce vocali all’hamburger menu. Le tre strisce che ricordano un hamburger e dal quale si accede al menu di un sito web sviluppato per il mobile. L’hamburger menu ha ricevuto e riceve critiche  perché nasconde la navigazione del menu che prima era evidente. Alcune persone ci restano incastrate e non riescono a navigare il sito.

Lo stesso avviene in una conversazione. Le persone una volta entrati in contatto con un contenuto, non avendo nessuna interfaccia grafica, hanno difficoltà a navigare ed uscire da quel contenuto. Come se ne esce? Come nella vita reale. Nelle conversazioni dal vivo si fa ricorso alle norme sociali. Lo stesso andrebbe fatto e viene fatto con gli assistenti vocali. Usando i vari saluti, per esempio, oppure effettuando altre richieste di informazione, o ancora riprendendo conversazioni già avute con il bot.

Mark Wilson scrive.

Dopo aver trascorso 20 anni alla Pixar, Oren Jacob, fondatore della compagnia Pullstring, sostiene che l’intero settore si concentri troppo sull’utilizzo dell’intelligenza artificiale. Con l’intenzione di anticipare ciò che un essere umano potrebbe potenzialmente chiedere in qualsiasi momento. E non si concetri abbastanza su una conversazione scritta con cura, piena di caratteri costruiti da dialoghi, che si dispiega proprio come uno script di Hollywood.

“Puoi pensare a questo spazio come ad una sceneggiatura interattiva”,

dice Oren Jacob.

Principio cooperativo

James Giongola, capo creativo per la progettazione delle conversazioni presso Google, invita i progettisti di chat ad utilizzare le regole del principio cooperativo.

Sul blog trovi un post dedicato interamente al principio cooperativo di Grice. Intanto, per non allontanarci troppo dal nostro discorso, basta sapere che il principio cooperativo è un concetto creato dal filosofo britannico Paul Grice negli anni ’70.

Grice ha teorizzato che le persone impiegano alcune norme, (conosciute come massime di Grice) per assicurarsi che le conversazioni fluiscano normalmente.

Che cosa significa in pratica? Significa che se qualcuno ti fa una domanda tu risponderai continuando il dialogo. Secondo un principio di collaborazione. Per esempio: “Sta sera, vai alla festa di compleanno?” La risposta, se vuoi conversare, non sarà (generalmente) una risposta chiusa, si o no. Ma molto probabilmente la risposta sarà “Si, vado alle nove!”, oppure: “Ci vado più tardi con la mia fidanzata”. O ancora. “No, non posso andare. Ho un’altro appuntamento”. Il dialogo, la conversazione, potrebbe continuare in un rimando di botta e risposta che continua la conversazione. E tu? Che fai? Andrai?…  e così via.

Almeno fin quando si vuole conversare.

Fai finta di niente, come fa la gente

A chi non è capitato di trovarsi in un locale rumoroso e perdersi alcune parole di quello che dicono gli altri?  Generalmente si hanno due scelte. La prima è quella di far ripetere la frase o la parola che non si è capito o sentito. Ma altre volte, se il discorso è di scarso interesse o frivolo, oppure si riesce a ricostruire il senso, si preferisce far andare avanti il discorso e non far perdere il ritmo della conversazione al nostro interlocutore. Così capita di saltare intere parti che non si reputano importanti.

Infatti, non tutte le parti del discorso sono sempre utili per portare avanti la nostra conversazione.

Così faranno gli assistenti vocali.

Cosa fa Google se non capisce?

Google ricondurrà quasi sempre ad una domanda su ciò che manca, utilizzando uno strumento chiamato “reprompt rapido”. Un reprompt è la stessa domanda chiesta nuovamente con frasi diverse.

Cosa fa un progettista di conversazioni?

E se continua a non capire? La prima, la seconda, la terza volta? Che succede? Diciamo che data la pretenziosità della gente è probabile che la conversazione venga abbandonata. Da progettista, però, bisogna porsi qualche domanda.

Si continua a chiedere un chiarimento? Oppure si suppongono alcuni dati?

Se, per esempio, qualcuno ha prenotato un tavolo e non abbiamo il numero certo di persone del tavolo, che facciamo? Chiederemo il numero esatto all’infinito oppure si presuppone che siano meno di 20 persone?

Quale errore sarà preferibile?

Non aver paura delle personalità forti

Nella vita reale, può essere difficile connettersi a qualcuno che sembra non avere opinioni o nessuna passione o proprie preferenze. Lo stesso vale per gli assistenti vocali.

Certo è che non è possibile creare un bot che piaccia a tutti. E anche se ci si riuscisse sarebbe un bot abbastanza noioso. Nello stesso tempo non possiamo avere un bot troppo severo e assertivo.

Il nostro bot deve rispecchiare il nostro marchio. Il nostro brand sarà impersonato da quel bot.

Brad Abrams, responsabile del gruppo di prodotti per la piattaforma Google Assistant, ha rivelato che Google ha scoperto che i robot di conversazione con cui le persone si sono maggiormente relazionate sono state proprio quei bot con un carattere più forte.

Person sheet

Per costruire il proprio bot per l’I / O di Google app, Abrams e la squadra hanno creato un “person sheet”. Il person sheet è uno strumento che serve come riferimento stenografico (scritto con segni) su come parla un bot. Questo strumento, specifica diverse decisioni di fraseggio che il bot potrebbe esprimere.

In pratica un bot può avere decine di modi di dire “Hai ragione” oppure “Hai sbagliato”. Variando nelle frasi e nei modi in maniera più o meno incoraggiante.

Assistenti vocali proattivi

Ma i bot non devono servire pedissequamente le persone. Stocker sostiene che ci sono molti casi in cui gli errori di Google Home potrebbero portare le persone ad utilizzare altri assistenti con un carattere più forte.

Un esempio che ha portato all’attenzione della platea è quello di una app di prenotazione al ristorante. Questa app richiede l’ora in cui vorresti cenare. Se il bot non capisce la risposta, può entrare in una modalità proattiva, dicendo: “Posso prenotarti per le 20:30, sei d’accordo?” Saltando diversi passaggi in avanti e indietro della discussione. Proprio come fanno gli esseri umani, il bot dovrebbe cadere sempre in piedi, anche se non capisce esattamente cosa sta succedendo.

Progettare conversazioni

Ricapitolando. Sia che vuoi progettare conversazioni, sia che vuoi solo capire come funziona un assistente vocale.

  • Dialoga dialoga, dialoga.
  • Supera gli errori in un modo o nell’altro.
  • Dai una personalità al tuo bot.

Cosa aggiungere di più per progettare conversazioni?