Oggi vi propongo una analisi sonora del film Her per sottolineare alcune delle difficoltà che progettisti e ingegneri devono affrontare nella realizzazione degli assistenti vocali. Il discorso è sempre ampio. Come al solito, cerco di sintetizzare, per quanto posso. E per forza di cose sarò parziale.

Come già sa chi mi segue, sono stato intervistato da Fabio Bruno per il mio intervento al Wiad Palermo. Su cosa sia l’architettura dell’informazione e sugli assistenti vocali. Fabio, tra le altre cose, mi ha chiesto se arriveremo presto ad avere un assistente vocale come nel film di Spike Jonze.

Per chi non lo conoscesse o non avesse visto il film racconto in breve di che si tratta. Ho riletto e mi pare che non ci sia nessuno spoiler. Ma meglio avvertire che dopo questa lettura, probabilmente, vedrete il film con occhi e orecchie molto diverse. Quindi, se non lo avete ancora visto, consiglio una prima visione del film senza lettura del presente articolo.

Her recensione film

Purtroppo, come capirete presto, non mi sono goduto a pieno il film. Perché, già dal trailer, avevo fatto caso ad una serie di cose che stonavano.

Her è la storia di un impiegato di nome Theodore. Il suo lavoro è quello di scrivere lettere personali per conto di altri. Separato dalla moglie, non riesce a rifarsi una vita, e si rifiuta di divorziare. In questa fase di non accettazione della vita, Theodore acquista un sistema operativo animato da intelligenza artificiale, con interfaccia conversazionale. Il sistema è talmente avanzato che pare essere davvero umano. Talmente umano e talmente femminile che il protagonista inizia una relazione con l’assistente vocale.

La voce originale del sistema operativo è quella di Scarlett Johansson. Mentre nel doppiaggio italiano la voce è quella di Micaela Ramazzotti, che però non è una doppiatrice e non è neppure la doppiatrice ufficiale di Scarlett Johansson. Infatti la Johansson è generalmente doppiata o da Perla Liberatori o da Domitilla D’Amico. Tanto che il film in alcune sale è stato proiettato in lingua originale.

Al di là dei miei commenti sull’assistenza vocale il film mi è piaciuto. E alla fine dell’articolo vi dirò il perché.

Assistenza vocale. Ci siamo davvero?

Fabio Bruno mi ha chiesto se siamo vicini a questo modello di riferimento. La mia risposta a Fabio è stata abbastanza secca. No. Non siamo vicini a questo modello. No perché il film racconta di sentimenti umani che difficilmente un assistente vocale riuscirà a comprendere. Si sta migliorando la biometria e quindi la capacità di comprensione dei sentimenti primari. Ma la lingua è un fenomeno complesso. E al momento si stanno migliorando degli aspetti di base. Che per noi magari sono ovvi. Non per una macchina.

Non dovremmo dimenticare che l’istruzione umana è la più lunga tra gli esseri viventi. Un essere umano, per essere auto sufficiente in natura richiede una istruzione di anni. Senza contare che possiede uno strumento di calcolo potentissimo che si chiama cervello.

Cerco, dunque, di argomentare meglio la mia risposta.per i lettori del blog. E lo faccio invitando a guardare, per il momento, il solo trailer. Analizzo solo questo. E se vi siete persi al cinema il film, è disponibile il DVD Lei (Her).

Configurazione di benvenuto del sistema OS1

Il film racconta che il sistema operativo ha bisogno di essere configurato. Per cui ci indica che si tratta di un sistema personalizzabile. Purtroppo la configurazione (per ragioni cinematografiche) è breve e generica. Si tratta di due sole domande. E queste due analizziamo.

Prima però farei notare che viene confermata una questione di genere che resta sempre aperta. Sappiamo dal trailer e comunque a breve nel film, che l’assistenza vocale avrà una voce femminile e ha desideri da donna. Eppure la configurazione non viene fatta da una rispettiva voce femminile. Ma da una voce maschile. Rimando alle conclusioni dell’articolo già scritto. Però mi pare un piccolo elemento su cui riflettere.

Nella configurazione di benvenuto, il sistema chiede a Theodore: lei è socievole o asociale.

Si tratta di una domanda molto semplice. Tipica di una intelligenza artificiale. Si tratta di un automatismo da seguire. Questa domanda rimanda alla personalizzazione e all’attenzione verso l’utente. Ci fa pensare che l’intelligenza artificiale si comporterà diversamente a seconda della risposta.

Eppure, se da un lato, l’intelligenza artificiale tende a semplificare, per capire meglio, noi umani non siamo semplici. Il protagonista, infatti, ad una domanda semplice risponde con una risposta molto complessa. Ossia risponde: ultimamente non sono stato molto socievole.

Il sistema

Che significa? Forse per qualcuno di noi può essere chiaro. Forse le immagini ci aiutano a capire cosa significa la risposta data. Ma un sistema operativo non possiede queste informazioni. A meno che non vengono introdotte nel sistema da qualcuno. Ultimamente non sono stato molto socievole può significare di tutto. Ciascuno di noi per comprendere il significato di questa frase deve lanciare delle connessioni sul proprio vissuto o sul vissuto dell’altro. Cosa potrebbe significare? Significa che prima era socievole e (solo) ultimamente è diventato asociale? Oppure significa che prima era asociale e ultimamente è più asociale di prima? E queste due varianti, questi due gradi di socievolezza, cosa comporterebbero nella relazione uomo-macchina?

La risposta, a me dice, che gli esseri umani siamo complessi. Mi spiega che nessuno è mai qualcosa o il suo contrario. Non sempre riusciamo a spiegarlo agli altri dopo anni di convivenza. E non sempre gli altri riescono a capirci pienamente.

Perché un’intelligenza artificiale dovrebbe capirci al volo?

Seconda domanda

La seconda domanda del sistema operativo invece è molto più complessa di quanto sia la prima risposta. Si chiede: come definirebbe il rapporto con sua madre? Domanda da un milione di dollari a cui molte persone dedicano anni e anni di psicanalisi per dare una risposta. Eppure in questo caso il sistema operativo ascolta per un po’ e poi, in effetti, non ascolta l’intero ragionamento.

Potrei fermarmi qui. Perché già in due domande c’è tutta la complessità umana e tutta la difficoltà di un assistente vocale che deve far ricorso a risorse che spesso non ha e forse mai potrà avere. La comprensione reciproca è qualcosa di molto difficile. La creazione di archi di relazione è complessa non solo tra umani, ma anche nella relazione uomo-macchina. Se fosse semplice comprendere le relazioni tra le cose e le persone molti mestieri non avrebbero motivo di esistere.

Il trailer continua

Continuo perché il trailer, seppure breve, è molto intenso. E fa un elenco di elementi molto interessanti che raccontano il film ma anche l’assistente vocale.

L’assistenza vocale è divertente, ha desideri, ha desiderio di imparare. Ha un punto di vista. Theodore dice: mi piace come vedi il mondo. L’assistenza vocale ha un carattere; è curiosa, impicciona, una vera ficcanaso. Inizia a fare domande esistenziali. Come si condivide la vita con qualcuno? Prende consapevolezza della sua spiritualità. Cosa si prova ad essere vivi? Con il tempo inizia ad avere il desiderio di fisicità e quindi fa domande su abbracci, carezze e toccamenti.

Pur volendo tralasciare tutte le questioni etiche che queste domande evocano, qui ci sono tanti problemi di progettazione. Desideri e voglie dovranno essere sempre progettati e poi messi a disposizione delle scelte possibili dall’intelligenza artificiale. Al momento una macchina fa scelte in base alle soluzioni possibili.

Ridere è cosa umana

Ma c’è stato un elemento che più di tutti mi è saltato alle orecchie. L’assistenza vocale ride.

Dicevamo che il protagonista afferma che l’assistente vocale è divertente. E fin qui ci possiamo credere. Fino ad un certo punto ma possiamo crederci.

Dico fino ad un certo punto non perché sia impossibile. Tutte le assistenze vocali sul mercato già raccontano storielle divertenti. Si tratta anzi di uno dei test più ricorrenti. In fondo niente di trascendentale. L’assistenza vocale cerca e trova una delle barzellette più lette sul web e ce la racconta.

Che poi questa storiella o barzelletta ci faccia ridere diventa un po’ più complicato. Non solo perché non tutte le barzellette ci fanno ridere. L’assistenza vocale non ha i tempi comici. Ma potrebbe darsi che già conosciamo il finale. Ad ogni modo… ci sono ottime possibilità che la barzelletta riesca.

Altra cosa, come vediamo sul trailer, è il caso contrario. Ossia Theodore, ad un certo punto, racconta lui una barzelletta all’assistenza vocale. E sorprendentemente la fa ridere. Ridono insieme.

Ora, ridere è una cosa seria. Ma è soprattutto cosa umana. Mi viene in mente quanto François Rabelais, (1494-1553) scriveva ai suoi lettori nel libro Gargantua e Pantagruel.

Meglio è di risa che di pianti scrivere,
Ché rider soprattutto è cosa umana.

Si, ridere è soprattutto cosa umana e non da assistenti vocali. La risata, il gioire insieme, implica una enorme quantità di elementi che neanche noi sappiamo del tutto spiegare. Il gioire insieme comporta uno scambio di informazioni non solo sonore o verbali, ma anche di alchimie che compongono la vita.

Siamo ancora lontani

In questo senso dico che siamo ancora lontani da assistenti vocali di questo genere. Film di questo genere ci fanno dimenticare la realtà. Fanno alzare le nostre aspettative. E di conseguenza aumentano la nostra delusione quando facciamo uso di un assistente vocale nel nostro quotidiano.

In questo momento i progettisti sono a lavoro su una relazione unidirezionale. Ossia gli assistenti vocali devono rispondere alle domande e alle richieste di azione che noi chiediamo.

È vero che le intelligenze artificiali oggi fanno scelte, giocano a poker e vincono. Pure bluffando. Ma, nel frattempo, non si relazionano all’altro giocatore come farebbe un umano.

In altri contesti, sappiamo che dando un comando la macchina esegue, salvo malfunzionamenti. Non sappiamo se la cosa può accadere al contrario. L’umano obbedirebbe pedissequamente ad eventuali ordini della macchina?

La direzione di sviluppo dei bot, delle intelligenze artificiali e degli assistenti vocali è quella giusta. I bot, gli assistenti vocali, trovano applicazioni sempre più valide. Finora si è giocato. Molti ancora ci giocano. A molti questo gioco non piace. Ma l’evoluzione esiste. E piano piano anche lo scetticismo indiscriminato vacillerà.

Non sarà cosa da pochi giorni o da cavalcare come soluzione immediata. Insomma, non ci siamo ancora. Sappiamo anche che la realtà supera sempre la fantasia. Per cui siamo qui ad aspettare.

Nel frattempo una bella relazioni tra umani e umane ci potrà consolare ancora per un bel po’!

Perché il film mi è piaciuto

Nonostante tutto, il film mi è piaciuto perché ha dei meriti. Che qui elenco.

  1. Ha il grande merito di parlare del rapporto uomo macchina senza evocare mondi distopici. Non dobbiamo scappare dalla tecnologia. La dobbiamo usare e usare al meglio.
  2. Mi ha fatto riflettere il lavoro di Theodore, che scrive lettere intime per altri. Magari la sua azienda, più che una azienda di editoria, fa parte di altre intelligenze artificiali ibride che fanno ricorso all’intelligenza umana per migliorarsi e per rendere un servizio migliore. Mi pare una buona notizia per gli umanisti. Magari un lavoro del futuro.
  3. Spike Jonze non evoca, almeno non direttamente, paure nei confronti delle nuove tecnologie. Anzi, ci racconta un mondo possibile. Forse perdiamo qualcosa, ma acquisiamo altro. Ogni giorno è così. Ogni giorno c’è uno scettico che non è convinto. Quel che conta è essere felici.
  4. La felicità può essere un percorso per conoscere meglio noi stessi. Ogni qualvolta ci relazioniamo con qualcosa o con qualcuno, conosciamo meglio noi stessi. Il viaggio di Theodore è proprio questo, nella conoscenza dell’assistente vocale egli fa un viaggio in se stesso.

Dal punto di vista del blog, poi, altro merito del film è che questo viaggio il protagonista lo intraprende e lo percorre attraverso un contesto sonoro. È attraverso l’ascolto della parola, attraverso le geografie dell’ascolto che Theodore fa esperienza di se stesso. Le relazioni sonore, infatti, sono molto intime e ci mettono a parte di un mondo solo nostro.

Mi verrebbe da dire, conosci te stesso! Per quanto difficile e doloroso,per quanto profondo o superficiale possa essere il percorso, ci sarà sempre e comunque utile. Con o senza assistente vocale.