Topic Modeling con Latent Dirichlet Allocation
Un’applicazione del topic modeling sui sistemi di help desk aziendali
Al giorno d’oggi il 90% del patrimonio informativo generato dalla maggior parte delle aziende è rappresentato da dati non strutturati. I dati non strutturati sono informazioni che non hanno uno schema predefinito, i cui pattern non sono facilmente accessibili e le cui analisi sono molto più difficili da applicare.
Dal lato opposto i dati strutturati rappresentano informazioni aventi una struttura specifica, delle relazioni interne, sono tipicamente molto ben organizzati, formattati e, di solito, sono memorizzati in database relazionali. Un esempio di dati strutturati è rappresentato dalle tabelle, che organizzano i dati in campi e per cui esistono già molti tool avanzati di analisi. Un esempio di dato non strutturato è rappresentato dal testo libero, che possiamo trovare nei documenti aziendali, nei blog, nei post dei social media, nelle mail, nelle trascrizioni degli audio e così via.
Le tecniche di data mining come l’elaborazione del linguaggio naturale e text analytics hanno come obiettivo quello di analizzare i dati non strutturati al fine di riconoscere schemi di pattern e regolarità intrinseche ottenendo informazioni utili al Business.
L’elaborazione del linguaggio naturale è un’area che miscela l’informatica, la linguistica e l’intelligenza artificiale che comprende varie tecniche atte a processare e analizzare informazioni in linguaggio naturale.
Una di queste tecniche è il “Topic Modeling”, una tecnica di machine learning che è capace di scansionare un insieme di documenti, individuare schemi nelle parole e nelle frasi raggruppando insiemi di parole ed espressioni che meglio caratterizzano un insieme di documenti. L’obiettivo è quello di identificare, dai gruppi di documenti emersi, gli argomenti (non conosciuti a priori) che caratterizzano l’insieme dei documenti e i relativi pattern di parole ricorrenti. Un esempio di applicazione può essere quello delle recensioni scritte dai clienti riguardo un prodotto aziendale. Applicando le tecniche di topic modeling, possiamo raggruppare recensioni aventi gli stessi schemi testuali e scoprire quali sono le tematiche per cui il nostro prodotto piace o meno al bacino di clienti, il tutto senza ricorrere all’intervento umano. Di conseguenza si possono intraprendere delle azioni atte a migliorare la user experience.
Latent Dirichlet Allocation (LDA) è un algoritmo di topic modeling che attraverso un modello statistico generativo tratta ogni documento come una distribuzione di probabilità sui vari topic e raggruppa documenti in base alla percentuale di schemi testuali in comune.
Da ogni gruppo risultante possiamo estrarre gli schemi di parole più frequenti e in base ad essi inferire il topic che caratterizza quell’insieme di documenti.
In Sysdata si è applicato il topic modeling per analizzare e cercare di estrarre le tematiche legate ai problemi più ricorrenti in un sistema di ticket di assistenza di un help desk in ambito automotive. La scoperta dei problemi ricorrenti rappresenta un ottimo approccio per poter poi implementare delle soluzioni mirate che permettano di identificare e mitigare i suddetti problemi, migliorare il servizio e soprattutto diminuire i costi di risoluzione degli stessi.
L’applicazione di LDA ha permesso di identificare che il 20% dei dati analizzati presentava dei problemi ricorrenti e per cui le soluzioni sono immediatamente implementabili.
In conclusione, si è provato che l’applicazione di queste soluzioni fornisce l’opportunità di ottimizzare i tempi di risoluzione dei problemi periodici e dedicare più risorse alla risoluzione di problematiche di entità diversa.
Fonti: forbes.com - jmlr.org/papers - monkeylearn.com/blog/introduction-to-topic-modeling