Il mito dell’analisi del sentiment


Decisori e analisti poco informati pensano che il sentiment sia l’indicatore supremo, la misura definitiva di quanti sono a favore, quanti contro, e quanti neutrali rispetto a un dato argomento. Di conseguenza, sempre più aziende si prodigano a offrire ciò che il mercato chiede, facendolo con disinformazione o addirittura approfittandosi dell’ignoranza dei clienti. Nonostante l’entusiasmo, questo tipo di analisi presenta forti limiti, indipendentemente dalla tecnologia utilizzata. Con i giusti accorgimenti, però, può ancora darci informazioni utili.


“Vorremmo un software che analizzi il sentiment”.

“Il nostro prodotto ha un motore di analisi automatica del sentiment”.

Se avete sentito queste parole o – peggio – le avete pronunciate voi stessi, state molto attenti, ci sono guai in vista.

Sentiment è l’umore associato ad un dato contenuto di testo, indica cioè se il testo esprime un’opinione positiva, negativa o neutrale su un argomento.

L’analisi del sentiment è una delle ultime mode, specie nell’ambito dei social media. Se anche voi siete rimasti affascinati dalle potenzialità di quest’analisi o avete pensato di offrirla come la tecnologia più innovativa di oggi, il mio caldo invito è di frenare il vostro entusiasmo e rivedere le vostre opinioni al riguardo con un approccio molto più cauto e ponderato. Leggendo quanto segue capirete perché il sentiment è una misura con i suoi alti e bassi. Sicuramente non è la pietra filosofale che trasforma ogni informazione sul web in un numero d’oro che dice se state avendo successo o meno. È in realtà un termometro abbastanza rudimentale, che rimane utile se utilizzato in alcuni casi specifici e con cautela.

Il Santo Graal degli analisti

Rivediamo velocemente le basi. La capacità di comprensione del significato di un testo da parte di un software, quella che viene chiamata analisi semantica, è un tema molto caldo nell’ambito della ricerca informatica e del mercato B2B.

L’obiettivo principale è aumentare le capacità di analisi su grandi quantità di documenti o testi tramite una classificazione automatica in base all’argomento o ad altre caratteristiche, svolta da un “motore” più o meno intelligente.

Immaginate ora di essere un direttore marketing oppure il responsabile delle relazioni pubbliche di un politico. Immaginate di poter raccogliere tutte gli articoli di giornale e tutte le conversazioni sui social che parlano di voi in tempo reale. Immaginate di avere uno strumento che vi dice in automatico se quegli articoli, post, tweet e commenti esprimono un parere positivo o negativo…

Questo scenario è il motivo per cui tanti sono saltati a bordo del treno del sentiment. Raccogli i dati, falli macinare dal motore di analisi semantica e…

BINGO!

Ora hai dati scientifici alla mano per dimostrare che il tuo prodotto piace alle persone oppure che ti voteranno (o il contrario). Giusto? No. Sbagliato.

La tecnologia non è completamente matura e allo stato attuale ha ancora dei limiti intrinsechi molto importanti.

Non disperate però. L’analisi semantica è reale, esistono software che sono in grado di comprendere, con più o meno accuratezza, parte del significato di un testo. Conoscendone i limiti e usando alcuni accorgimenti è comunque possibile trarre alcune conclusioni qualitative effettivamente utili.

Cominciamo con l’aprire gli occhi.

E qui ci casca il sentiment…

Per comprendere cosa l’analisi del sentiment può o non può fare è utile avere una leggera infarinatura sul suo funzionamento.

I software si basano su una sorta di grande “dizionario” in cui parole singole e combinazioni di esse vengono associate ad un dato valore, tipicamente “positivo”, “neutrale” o “negativo”; software più avanzati possono associare una scala di punteggio fino ad arrivare all’indicazione di emozioni specifiche quali gioia, rabbia o tristezza e all’indentificazione del soggetto che sente l’emozione e l’oggetto verso cui l’emozione viene rivolta (approfondimento). Tali casi avanzati sono prevalentemente dominio della ricerca, mentre la maggior parte dei software in commercio si ferma al primo stadio.

Facciamo degli esempi concreti. Parole come “meraviglioso” e “fantastico” otterranno tipicamente una valutazione positiva, mentre “orribile” o “insufficiente” saranno tipicamente giudicati negativi. La parola “piace” potrebbe essere valutata in entrambi in modi a seconda che sia preceduta o meno da “non”. I dizionari possono essere più o meno sofisticati includendo combinazioni sempre più complesse e articolate di vari elementi di testo.

Tuttavia, per quanto esteso sia il dizionario, alcuni elementi rimangono difficili da cogliere e possono facilmente trasformare un software teoricamente intelligente in un giudice decisamente poco efficace. Ve ne elenco alcuni.

1) Sarcasmo, ironia e altre variabili “non testuali”

Non sempre si può definire il valore di un’espressione solo in base alle parole che la compongono. Considerate il seguente esempio:

Utente 1: Domani è prevista neve, il concerto verrà annullato.

Utente 2: Ma che bella notizia!

Cosa pensate dell’espressione dell’utente 2? Esprime un sentiment positivo, neutrale o negativo?

[foto di scimmia che si gratta la testa] – Informazioni insufficienti non permettono una valutazione accurata

Qualunque cosa abbiate pensato, con questi soli dati a disposizione avete solo il 33% di possibilità di aver indovinato, poiché non ci sono informazioni sufficienti. L’utente 2 potrebbe essere un fan che esprime il suo rammarico con sarcasmo, oppure potrebbe essere un ragazzo contento di non dover accompagnare la fidanzata ad un saggio di musica.

Se, d’altra parte, un essere umano potrebbe esplorare il profilo dell’utente per raccogliere ulteriori dettagli, un motore di analisi del sentiment ha solo il testo per fare le sue valutazioni. E poiché non ci sono informazioni sufficienti il suo giudizio ha la stessa probabilità di essere corretto di una selezione completamente casuale.

2) Opinioni del lettore e contesti multipli all’interno del testo

Prendete i seguenti estratti da un articolo di giornale:

Università, è Bologna la migliore in Italia, secondo il ranking Qs

È 182esima su 800. 26 le italiane in classifica. Peggiora il giudizio dei cacciatori di teste, meglio la reputazione accademica. In testa il Mit di Boston. Londra capitale mondiale

[…] Dalla combinazione dei risultati, cinque università della capitale britannica compaiono tra le prime 100, più di quante ne piazzino Boston e Hong Kong (3), New York, Parigi, Tokyo, Melbourne e Pechino (2). Commenti soddisfatti dal sindaco di Londra, Boris Johnson […]

Inutile cercare un’italiana tra le prime cento. La prima a comparire in un parterre dominato da atenei anglofoni e orientali è l’Alma Mater di Bologna (182esima), che sale di sei posti rispetto allo scorso anno e si riconferma la prima in Italia. […]

(Articolo sul Corriere della Sera)

L’articolo è considerato come un pezzo unico dal motore semantico. Come dovrebbe giudicarlo? Il titolo sembra positivo, ma dal sottotitolo è chiaro che la prospettiva non è rosea. Se fossimo il sindaco di Londra ne saremmo contenti. Chi frequenta l’università di Bologna potrebbe anche esserne soddisfatto, tutto sommato è la migliore d’Italia e sta salendo la classifica, o forse no, perché si aspettava che l’università più vecchia del mondo fosse anche fra le migliori al mondo.

Questo articolo presenta due ostacoli per un motore di analisi del sentiment:

  1. articoli e commenti di cronaca come questo sono studiati per proporre informazioni in maniera neutrale, lasciando il giudizio al lettore. Il motore di analisi del sentiment che utilizziamo noi ha giudicato il post come positivo, ma sarebbe forse stato più accurato un giudizio neutrale. In ogni caso il giudizio potrebbe variare in base a chi legge i dati e pertanto un giudizio qualunque non sarà effettivamente rappresentativo della realtà.
  2. i testi di una certa lunghezza presentano contesti multipli. Alcune parti presentano informazioni che potrebbero essere giudicate positive, mentre altre negative: condensare il tutto in un unico punteggio diventa quindi automaticamente una misura imprecisa. Anche se le parti con un dato sentiment sono più frequenti, non è detto che siano le più rilevanti, anche in base al punto 1.

3) Contesti paralleli

Il seguente commento è stato pubblicato sulla pagina Facebook di Sale&Pepe, la rivista mensile dedicata alla cucina, ed è relativo ad un articolo che parla della chiusura di un ristorante dello chef Gordon Ramsey:

immagine commento

Il sentiment di questo post è decisamente negativo, qui il motore semantico difficilmente sbaglierà. Il problema sta nell’utilizzo del dato: ha senso considerare tale sentiment negativo come segnale che la pagina di Sale&Pepe sta andando male o che suscita sentimenti negativi? Evidentemente no. Sono i temi che tratta, oppure i commenti che vi vengono scritti dagli utenti che ogni tanto scatenano reazioni di questo tipo.

L’analisi del sentiment non è in grado di filtrare i commenti negativi che non si riferiscono alla pagina, di conseguenza il dato finale presentato dal software di turno conterrà sia le espressioni relative al brand/prodotto che quelle riferite ai contesti paralleli che si creano nelle conversazioni.

4) Citazioni, paragoni fra prodotti o persone etc.*

Questo problema l’ho scoperto su una pagina del New Jersey Institute of Technology, che ringrazio per il suggerimento.

Leggete il seguente estratto di una recensione:

Le prime consegne della Nikon D3200 sono attese per metà maggio. Nelle intenzioni del fabbricante la D3200 non dovrebbe sostituire la D3100 posizionandosi a metà strada fra quest’ultima e la D5100 […]

Questo è un caso specifico del punto uno, nella fattispecie: mancanza di informazioni sufficienti. Quando si mettono a confronto più prodotti o persone spesso rimane implicito se il confronto sia fatto per mettere in risalto caratteristiche positive o negative. Per un motore automatico che non conosce a priori né i prodotti, ne le persone, interpretare un paragone di questo tipo come positivo o negativo è impossibile.


Con queste premesse volete davvero basare le vostre decisioni di business, o anche solo di strategia di comunicazione, sull’unica base del sentiment, questo volubile indicatore? Fossi in voi, io non lo farei.

Eppure, con i dovuti accorgimenti, il sentiment tornare amico dell’analista.

Quando (e come) si può usare il sentiment.