Controlli vocali, li vogliamo veramente?

Quando Apple presentò l’iPhone 4S, creò una sorta di precedente. Design, Apps, fotocamera, schermo, questa volta non centrano niente, la colpa è tutta di Siri. Il sistema di riconoscimento vocale ha lasciato tutti a bocca aperta, questo è innegabile. Poi lo stupore si è sgonfiato, e anche abbastanza in fretta, ma l’effetto wow iniziale non è mancato.

Siri ha portato a un livello superiore l’interazione vocale con un dispositivo elettronico. Già, perché se Apple non ha inventato niente di nuovo, ha umanizzato – e migliorato – quello che prima di Siri era già disponibile ma richiedeva un approccio asettico fatto da comandi preimpostati che offrivano una debole e povera interfaccia vocale con alcuni dispositivi.

Anni e anni fa, ai tempi in cui “Nokia” era sinonimo di “telefonino”, era possibile premere un tasto sul cellulare e pronunciare “chiama Fabrizio” per avviare una telefonata a Fabrizio. Quando il sistema capiva correttamente il nome, e non lo confondeva con “supplizio”, “Maurizio” o “armistizio”, funzionava, ma dopo aver fatto vedere a nostra mamma quanto era evoluto il nuovo cellulare e aver giustificato a noi stessi, con questo espediente, l’investimento del denaro tanto sudato, dimenticavamo per sempre questa funzione. Dopo tutto, era più semplice premere un paio di pulsanti per avviare la chiamata, anziché pronunciare un nome e sperare che funzionasse.

Anno dopo anno le funzioni si sono evolute e hanno permesso di attivare con la voce anche altri comandi, per accedere a menù o avviare applicazioni. Ma finiva sempre allo stesso modo, e si smetteva di parlare con il proprio telefono. Ogni tanto mi capita di usare il riconoscimento vocale dell’automobile, e forse questa è l’unica occasione in cui mi sento di avere un reale vantaggio. Nonostante queste funzioni siano sempre molto basilari e legate a “parole chiave”, tipo “chiama”, “chiama numero”, “richiama” o pochi altri comandi, almeno non rischio la vita e tengo gli occhi sulla strada.

Tornando al presente, dopo Siri una marea di sistemi simili, più o meno buoni, hanno e stanno invadendo il mercato Android. Non si è più legati a singoli comandi, si può parlare più liberamente, anche se in verità il sistema di funzionamento non è differente dal passato, ma è semplicemente più permissivo. Anziché dover pronunciare solo una parola, nella maniera più chiara possibile, potrete pronunciare una frase complessa in cui è presente quella parola (o parole) chiave. Con Siri, per esempio, potrete dire “svegliami domani mattina alle otto”, per impostare una nuova sveglia. Il sistema riconoscerà la parola “svegliami”, e l’orario, e imposterà la sveglia di conseguenza. In altre parole, se con un sistema “vecchio stile”, avreste detto “imposta sveglia otto”, per esempio, oggi potete parlare in maniera più naturale.

Per rendere questa interazione più umana i programmatori hanno creato il sistema per rispondere anche a domande di circostanza, e gli hanno donato una personalità facendolo rispondere con alcune classiche interazioni sociali. Non vi dirà più “comando non riconosciuto” o “errore”, ma “mi dispiace, non sono in grado di capire la tua richiesta”. Non è però un’analisi di Siri o degli altri sistemi di riconoscimento vocale quello di cui voglio parlare, magari lo farò in un’altra occasione, ma voglio porvi una domanda: vogliamo veramente questi sistemi di riconoscimento vocale? Ne abbiamo bisogno e, soprattutto, vogliamo usare in questo modo, parlando, i nostri gingilli elettronici?

Smartphone, tablet e fra poco anche televisori e chissà cos’altro, offriranno questo metodo d’interazione. Posso capire un sistema domotico che permette di accendere la luce appena rientrato in casa dicendo “luce” – come ogni buona abitazione da film di fantascienza che si rispetti. Se ho le mani piene di sacchetti della spesa mi farebbe anche comodo. Posso capire la possibilità di avviare una telefonata mentre sono alla guida, o ancora di scrivere un SMS dettandolo. Ma oltre a queste poche occasioni, voglio veramente cambiare il canale del televisore o scaldare il latte nel microonde con la voce? Non sono del tutto sicuro di volerlo.

Provate a fare un esercizio. Guardate il televisore e dite a voce alta “cambia canale” o “italia 1”. Guardate il forno e dite “imposta temperatura 200 gradi”. Semplicemente pensandolo sembra una gran cosa, ma all’atto pratico lo è veramente? Soprattutto quando si è soli, è naturale stare in silenzio. A volte si parla ugualmente o si canticchia una canzone, ma è più naturale stare in silenzio. Non sarà più semplice premere il pulsante “6” sul telecomando per sintonizzare “Italia 1”, anziché bofonchiare con la bocca piena “itagghia uo”?

Questa riflessione deriva anche dall’uso attuale dei sistemi di riconoscimento vocale. Sono poche le volte che Siri o altri sistemi prendono il sopravvento rispetto un click su un’unico a schermo. Anche Kinect permette di controllare la Xbox 360 con la voce, ma a parte una prova iniziale, alla fine muovere il pad analogico è ancora l’azione più naturale. Non penso di trovare così tanta utilità nei sistemi vocali, almeno non allo stato di sviluppo attuale, così come non la trovo nelle gesture “3D” – in aria, e probabilmente la motivazione è la stessa che lascia i sistemi di controllo a movimento (wii, kinect, playstation move) a prendere polvere da parte la TV.

Alcuni di noi sono pigri per natura, altri molto attivi, ma ci sono alcuni momenti in cui a tutti piace rilassarsi, e questi sistemi d’interazione richiedono un’azione fuori dagli schermi, fuori dall’abitudine e, spesso, più dispendiosi di energia. Non vedo un vero spiraglio di successo per questi nuovi sistemi di controllo, almeno non nell’immediato futuro e non per come sono fatti e pensati oggi. Per convincere veramente, e avere una possibilità, devono ancora evolversi, e non poco.

Condividi

  • Facebook
  • Google Plus
  • Twitter
  • LinkedIn
  • Email
  • RSS
  • Pingback: Controlli vocali, li vogliamo veramente? | buonaguida.com

  • pav_87

    Io personalmente uso i comandi vocali abbastanza spesso. Soprattutto su gnexus, dove la cosa è parecchio migliorata.sopratutto in auto, per dettare messaggi veloci, o per chiamare. Oppure quando sono sdraiato sul divano e devo mandare a qualcuno un testo lungo. Sembra impossibile, ma dettando si fa prima! Mi piacerebbe che il sistema si evolvesse ulteriormente, magari che mi permetta di prendere appuntamenti o simili(dimentico tutto ;-D), ma per ora mi accontento! Per il resto sono d’accordo, non parlerei con il mio telefono come un pirla per conoscere le previsioni meteo, ma solo quando sono impossibilitato ad usare le mani…