De toegevoegde waarde van tekstanalyse binnen opinieonderzoek

10 juli 2019

Met opinieonderzoek wordt de mening van een doelgroep over een bepaald onderwerp in kaart gebracht. Dit kan zowel met kwalitatief- als met kwantitatief onderzoek. Kwantitatief onderzoek wordt vaak gebruikt wanneer het een grote steekproef betreft en men behoefte heeft aan cijfermatige resultaten. Bijvoorbeeld hoeveel procent van de inwoners van de gemeente Enschede is tegen het plaatsen van windmolens in het buitengebied.

Open vragen binnen kwantitatief onderzoek

Bij kwantitatief onderzoek wordt gebruikt gemaakt van gestructureerde vragenlijsten met veelal gesloten vragen. Antwoorden op open vragen zijn namelijk lastig te analyseren en om te zetten naar cijfermatige output.
Door de snelle ontwikkelingen op het gebied van Machine Learning (ML) en Natural Language Processing (NLP) is hier verandering in gekomen. Tegenwoordig kunnen computers ook grote hoeveelheden tekst analyseren en omzetten naar cijfermatige resultaten. Deze ontwikkelen zorgen ervoor dat er bij kwantitatief onderzoek ook open vragen gesteld kunnen worden.

Voordelen van kunstmatige tekst-intelligentie

Het stellen van open vragen en het analyseren van de antwoorden met behulp van kunstmatige tekst-intelligentie heeft een aantal voordelen, namelijk:

  • Antwoorden op open vragen geven een meer genuanceerder beeld. Dit blijkt bijvoorbeeld o.a. uit het onderzoek; “Traditioneel opinieonderzoek schept een ongenuanceerd beeld van de mening van Nederlanders over Moslims” van Christine Carabain. Hierin laat zij o.a. zien dat gesloten vragen op verschillende manieren geïnterpreteerd kunnen worden. Het maakt bijvoorbeeld verschil wat mensen onder “goed aangepast” verstaan wanneer zij aangeven in welke mate zij het eens zijn met de stelling; “Verreweg de meeste allochtonen hebben zich goed aangepast aan de Nederlandse samenleving”. De een verstaat onder “goed aangepast” zich houden aan de Nederlandse wet terwijl de ander daar volledige assimilatie aan de Nederlandse samenleving verstaat.
  • Top down versus Bottom-up. Bij het werken met gesloten vragen in een gestructureerde vragenlijst bepaalt de onderzoeker (wel of niet samen met de opdrachtgever) wat de relevante onderwerpen zijn. Dit is de top down benadering. Door gebruik te maken van kunstmatige tekst-intelligentie kun je open vragen stellen en de antwoorden vervolgens categoriseren naar onderwerp. In deze bottom-up benadering bepalen de respondenten wat de relevante onderwerpen zijn.

Voorbeeld: internet consultatie rondom Schiphol

In deze blog richt ik mij op het categoriseren van open antwoorden en de inzichten die dit oplevert. Ik doe dit aan de hand van de antwoorden op vraag 1 van de internetconsultatie van de omgevingsraad over Schiphol. Deze luidt:

Vraag 1. Ontwikkeling Schiphol na 2020

Schiphol heeft afgelopen jaren het afgesproken plafond van 500.000 vliegtuigbewegingen (optelsom van starts en landingen) bereikt. Tot en met 2020 mag Schiphol niet verder groeien qua vliegtuigbewegingen. In haar advies zal de Omgevingsraad Schiphol ingaan op zaken die te maken hebben met de vraag of en zo ja in welke omvang Schiphol in de jaren daarna weer mag groeien.

  • Wat is uw visie op de omvang van het aantal vliegtuigbewegingen op Schiphol in de jaren na 2020?

Op bovenstaande vraag zijn 4213 open antwoorden binnen gekomen. We hebben met behulp van het SVM algoritme de vragen gecategoriseerd naar;

  • Meer (vliegtuigbewegingen)
  • Minder (vliegtuigbewegingen
  • Gelijk (vliegtuigbewegingen
  • Overige

Nu is het al interessant om te weten hoeveel procent van de respondenten voor meer, minder of gelijk aantal vliegbewegingen zijn. Het is zeker zo interessant om te weten waarom men dat vindt.

LDA; cluster van gelijksoortige tekst

In deze blog laat ik zien hoe we met het latent Dirichlet allocation model (LDA) de open antwoorden op vraag 1 hebben gecategoriseerd. Deze analyse geeft inzicht waarom mensen bijvoorbeeld voor minder vliegbewegingen zijn. Wij hebben de LDA analyse op bovenstaande categorieën uitgevoerd, behalve voor de categorie overige, die hebben we buiten beschouwing gelaten.

Labelen van clusters met wordclouds

Het LDA model groepeert gelijksoortige teksten in clusters, de naam van de clusters moet je zelf uit de teksten afleiden. Door voor iedere cluster de belangrijkste woorden in een wordcloud weer te geven, krijg je een goed beeld waar de teksten over gaan en help bij het bepalen van namen (labels) voor clusters. Ik heb de teksten van de categorieën in clusters verdeeld en voor iedere cluster een wordcloud gemaakt. Als voorbeeld staan hieronder de 6 wordclouds voor de categorie “Meer”. De wordclouds van de andere 2 categorieën vind je terug in het interactieve dashboard onderaan deze blog.


Aan de hand van bovenstaande word clouds heb ik de clusters de volgende labels gegeven:

Cluster Label Key words
0 Economie Economie, werkgelegenheid, Nederlandse
1 Stille/schonere vliegtuigen Vliegtuigen, stiller, stillere, zuiniger
2 Overlast en milieu Omwonende, omgeving, overlast, milieu
3 Toenemen vliegbewegingen Vliegbewegingen, aantal, toenemen, groeien
4 Groei en andere luchthavens Groeien, andere, luchthavens, Europa, Lelystad
5 Wonen en mensen Mensen, overlast, wonen, ruimte

In het onderstaande interactieve dashboard vind je ook de labels en wordclouds van de andere 2 categorieën (gelijk en minder).

Interactief dashboard

Rechtsonder het dashboard vind je het icoon  waarmee je het dashboard beeldvullend kunt weergeven.

Het interactieve dashboard bestaat uit een; filter, grafieken en een tabel. Door de cursor op een grafiek te plaatsen verschijnt het icoon voor de focusmode . Door op het icoontje te klikken wordt de grafiek beeldvullend weergegeven.

Door met de “categorie filter” een categorie te selecteren laat het dashboard de resultaten voor de gemaakte selectie zien. Door bijvoorbeeld meer te selecteren kun je zien wat de achterliggende clusters voor de categorie “meer” zijn, wat de keywords zijn (wordcloud) en de achterliggende zinnen terug lezen.

Conclusie

Door teksten met LDA te analyseren krijg je snel inzichtelijk welke onderwerpen respondenten belangrijk vinden. In bovenstaand maakt LDA inzichtelijk welke argumentatie respondenten gebruiken. Zo kunnen we zien dat mensen die voor meer vliegtuigbewegingen zijn voornamelijk economische argumenten gebruiken en ensen die geen groei willen gebruiken voornamelijk overlast als argument. Mensen die minder vluchten op Schiphol willen maken zich zorgen over het woongenot en de leefbaarheid.
Met LDA hoef je geen machine learning model te trainen, je kunt de tekst direct analyseren. De analyse geeft inzicht in wat er leeft bij de doelgroep. Inzichten die gebruikt kunnen worden om de dialoog aan te gaan of voor bijvoorbeeld een afgestemde communicatiestrategie.