Voice technology e vocal search

Alessio Pomaro

Alessio Pomaro

Per un tema complesso (non complicato, complesso) come la ricerca vocale, Alessio Pomaro è senza dubbio l’uomo che fa per noi. In particolare apprezzo la sua lucidità e la completezza nell’esprimere le cose che studia. Soprattutto ti accorgi subito che le sfide impossibili gli piacciono da impazzire. Perché dico impossibili? Per quanto ne sappiamo, Google pesca le informazioni da usare per le risposte vocali in modi spesso bizzarri. Serve entusiasmo “vero” per affrontare un tema così sfuggente e mutevole.

Dici di no?

 

Ciao Alessio, ci racconti i tuoi attuali focus lavorativi?

Ciao Francesco, attualmente gestisco il team SEO di Site by Site e l’R&D unit di Voice Branding, uno spin-off dedicato alla ricerca vocale e alla voice technology.

Visto che il focus dell’intervista è sulle VUI (voice user interfaces), approfondisco il secondo ambito.

Oggi la voce sta diventando un mezzo sempre più importante per l’interazione con i device e con i servizi, e probabilmente lo sarà sempre di più, viste le analisi predittive di diffusione di device IoT (Internet of Thngs) nei prossimi anni. Con Voice Branding andiamo a creare soluzioni legate proprio all’utilizzo della voce. 

Abbiamo sviluppato un framework che (provo a spiegarlo in maniera semplice) ci permette di realizzare assistenti digitali personalizzati da mettere a disposizione dei brand per offrire touchpoint ai loro clienti su diversi canali, come siti web, app mobile, smart speaker (e tutto l’ecosistema di device che ospitano Google Assistant e Alexa), fino ad arrivare al telefono, ai sistemi di messaggistica classici (messenger, telegram, slack) e a sistemi custom che ne permettano l’integrazione.

 

Cosa accidenti è la voice technology?

Prima di dire cos’è la voice technology, premetto che userò una dose di semplificazione, senza entrare in tecnicismi che comunque non sarebbero utili in questo contesto.

La voice technology, molto semplicemente, è un sistema che permette l’interazione tra uomo e device attraverso la voce ed il linguaggio naturale. Gli attori principali che ne fanno parte sono: il dispositivo, ovvero l’interfaccia fisica alla quale l’utente si rivolge (ad esempio lo smart speaker, ma ormai anche la lavatrice o il frigo), un sistema di “speech recognition“, quindi un insieme di algoritmi che riconoscono il “parlato” del’utente, una componente di intelligenza artificiale e machine learning per l’elaborazione del linguaggio e l’apprendimento, ed infine un ecosistema di applicazioni vocali (es. Actions on Google e Skills) che rappresentano la parte software che esegue “compiti verticali“. Le applicazioni vocali, per associazione, possiamo accostarle alle app in uno smartphone.

 

Perché se lo chiedo a Google, l’assistente risponde con le parole di Site By Site? 

Hahaha ☺ Si tratta di un esperimento che ho fatto proprio con l’obiettivo di ottenere la risposta vocale per la query “cos’è la voice technology“. L’assistente ti propone la mia risposta, molto “semplicemente” perché l’IA di Google che processa i contenuti la ritiene la migliore disponibile per il device che stai utilizzando. 

Come dico spesso, il web è ricco di contenuti, ma è povero di risposte. Riuscendo a mettere a disposizione delle risposte che rispettino determinate caratteristiche (durante l’anno abbiamo fatto moltissimi test per determinare l’identikit della risposta vocale), verranno estratte per essere offerte agli utenti.

Tengo a precisare che questi ragionamenti possiamo farli quando di base c’è un contenuto degno di essere preso in considerazione; il nostro contenuto, dal quale viene estratta la risposta vocale, è anche in prima posizione in serp da desktop e mobile (e con risultato zero).

 

Esistono dati strutturati utili a favorire le ricerche vocali?

Domanda interessante e solo apparentemente semplice. 

Per rispondere, propongo di partire da due presupposti:

  • per me i dati strutturati sono “sacri” ☺; 
  • evito di ripetere che sono importanti, ad esempio, per la comprensione dei contenuti e per i vantaggi che derivano dal loro utilizzo in termini di CTR perdei risultati in SERP.

Per quanto riguarda la voice search, ci sono alcuni aspetti molto interessanti. 

Il primo è che quando Google Assistant cita la fonte del risultato utilizza l’attributo “name” dello schema “website“. Se manca l’attributo utilizza il dominio. Chiaramente, in ottica di sessione di ricerca è importante che l’utente riconosca chiaramente il brand.

Il secondo aspetto è più “tecnologico“. Ci sono, infatti, alcuni schemi che, se implementati correttamente, possono trasformare una pagina web in un’esperienza vocale nel caso in cui venga richiamata da un risultato organico su smart display, ad esempio un Google Nest Hub.

Google sta puntando su questo aspetto, tanto che ha appena allargato il ventaglio degli schemi che permettono questa funzionalità, estendendolo a podcast, how to, news, ecc. (non tutti già disponibili in Italia).

L’ultima cosa da dire è che Google ha creato un attributo di schema.org chiamato “speakable” (attualmente in versione beta), per indicare il contenuto che sarebbe idoneo per essere pronunciato da uno smart speaker. Attualmente viene preso in considerazione per le news, ed è attivo negli Stato Uniti. Tuttavia, io credo che i progressi dell’IA nella comprensione e nell’elaborazione dei contenuti potrebbero renderlo obsoleto.

 

Chi dovrebbe investire più attenzione in questo campo?

Ti faccio io una domanda: chi avrebbe dovuto investire più attenzione nell’anno zero del mobile?

Io credo che il mondo “voice” accolga una vasta gamma di possibilità in ambito di digital transformation. Attraverso la voce, infatti, i brand possono aggiungere touchpoint per arricchire il coinvolgimento e la qualità dell’esperienza utente lungo il customer journey, e possono estendere l’advertising tradizionale (es. la radio – pensa se mentre stai guidando la radio ti facesse attivare un’app vocale invece di dirti il sito web). La voice technology può contribuire a migliorare l’esperienza di ricerca interna in un sito web di e-commerce (aiutandoti anche a capire meglio il tuo pubblico), può dare informazioni generiche di ogni tipo (una sorta di FAQ più avanzate), può essere utilizzata per offrire un’interpretazione di dati statistici, e molto altro.

Cambiando completamente ambito, la voice technology può essere utilizzata attraverso il telefono andando ad alleggerire il lavoro del customer care, può essere affiancata ad un’app mobile per facilitare l’interazione e può essere la protagonista di applicazioni per ipovedenti.

E non dimentichiamo che gli algoritmi che “lavorano” dietro ad un assistente vocale, possono dare, come dicevo inizialmente, risposte anche via chat in qualunque sistema di messaggistica (messenger, telegram, slack, ecc.).

Le possibilità sono davvero infinite.. Tornando alla prima frase della risposta, siamo davvero all’anno zero, e secondo me ci sarà molto di più degli esempi che ho fatto. L’advertising.. l’acquisto vocale.. 

Ne vedremo delle belle.

 

Hai provato a chiedere a Google “cosa disse la vacca al mulo?” Perché succede?

Ho appena provato 😁 Dice quello che mi aspettavo dicesse. Ti ringrazio, perché questa query non poteva mancare nella mia attività di ricerca 😂

Scherzi a parte, succede per lo stesso motivo che abbiamo visto precedentemente relativo alla query “cos’è la voice technology“. Esiste un contenuto che, secondo l’elaborazione dell’IA di Google, risponde alla domanda in maniera ottimale per il device con il quale ti stai interfacciando. Prova, ad esempio, a fare la stessa query su Google da browser 😉 

Chiaramente, in questo caso, il testo della canzone va proprio a calzare domanda e risposta.. Tu chiedi “cosa disse la vacca al mulo“? Il contenuto della pagina dice esattamente “Disse la vacca al mulo, oggi ti puzza il ..(ecc.)“.

Rispondi all'articolo

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

Time limit is exhausted. Please reload the CAPTCHA.