Innovatie & Strategie

Analytics

Twitter: belangrijke bron van Big Data

19 april 2013

Wereldwijd heeft Twitter zo’n 200 miljoen gebruikers, het aantal ­Nederlandse twitteraars wordt geschat tussen de 1 en 2 miljoen.

De Nederlandse twitteraars zorgen samen voor een dagelijkse stroom van zo’n 4 miljoen tweets. “Inmiddels hebben we een grote hoeveelheid tweets verzameld. De teller staat al boven de 5 terabytes en dat groeit dagelijks aan”, zegt Erik Tjong Kim Sang. De onderzoeker van het eScience Center in Amsterdam verzamelt in het onderzoeksproject TwiNL die vele Nederlandse tweets. Ook prof. Antal van den Bosch van de Radboud Universiteit Nijmegen en Evert Lammerts (SARA) zijn bij dit project betrokken.

De zeer vele Twitterberichten vormen bij elkaar een verzameling Big Data waaruit interessante trends en conclusies kunnen worden gehaald. “Geleidelijk ontstaat zo een groot ‘corpus’ van korte teksten waar we onze analyses op kunnen doen. Overigens slaan we niet alle tweets die we binnenhalen ook daadwerkelijk op. Het gaat ons alleen om berichten in het Nederlands”, aldus Tjong Kim Sang.

Automatische taalherkenner

Het selecteren van de tweets is een tweestapsproces. In eerste instantie wordt gekeken of er een bekend Nederlands woord in voorkomt, of een hashtag die in ons land vaak wordt gebruikt. In tweede instantie wordt met een automatische taalherkenner een verdere selectie gemaakt. Tjong Kim Sang: “Dan hebben we de grootste kans dat we geheel Nederlandstalige tweets hebben verzameld. Uiteraard slipt er wel eens een buitenlands tweetje doorheen, maar daar kunnen we mee leven.”

Daarnaast worden de tweets van de 5000 meest productieve twitteraars in Nederland standaard toegevoegd aan de dataverzameling.

Het oogstproces

Om Twitterberichten van het internet af te grazen gebruiken de onderzoekers een in Zweden ontwikkeld hulpmiddel. Dat tool draagt de naam cURL – niet te verwarren met de programmeertaal Curl. Met cURL kunnen bestanden van websites worden gehaald. “Voor het binnenhalen van Twitterberichten moeten we drie parameters opgeven in cURL. Om te beginnen natuurlijk het internetadres van de dienst die Twitter aanbiedt, dan een geldige gebruikersnaam annex wachtwoord en als laatste een indexbestand. Dat indexbestand bevat alle woorden waarop we de Twitterberichten willen selecteren. Zo’n indexbestand is niet al te ingewikkeld, het bestaat uit een file met alle zoektermen waarin we geïnteresseerd zijn gescheiden door komma’s”, legt Tjong Kim Sang uit.

Verwerking

Om een analyse uit te voeren in een dataverzameling van ettelijke terabytes is een standaard computer niet voldoende, tenminste niet wanneer het resultaat van de analyse binnen korte tijd bekend moet zijn. “We maken daarom gebruik van een Hadoop-installatie die staat opgesteld bij SURFsara in Amsterdam. Hadoop is een parallel werkend zoeksysteem, waarvoor geen speciale programmeerkennis nodig is. De opensourcesoftware bepaalt zelf hoe een query het beste parallel uitgevoerd kan worden zodat de zoektijd overzienbaar blijft”, zegt Tjong Kim Sang.

SURFsara zorgt ook voor de opslagcapaciteit die nodig is om alle tweets te kunnen bewaren. Met als resultaat dat de onderzoekers in meer Twitterberichten kunnen zoeken dan bij Twitter zelf. Tjong Kim Sang: “Bij Twitter zie je dat berichten worden opgeschoond, wij houden alle verzamelde data in huis. De tweets zijn dus in te zien, alleen hebben we de toegang beperkt tot onderzoekers. De tweets kunnen worden doorzocht op de speciale website http://twiqs.nl. Terwijl het zoekproces loopt, wordt meteen een overzicht gegeven van het aantal Hadoop-nodes dat voor die taak wordt ingezet.”

Afhankelijk van de belasting van de website duurt het zoekproces tussen de 10 seconden en 1 minuut. Het resultaat kan als grafiek worden weergeven maar ook in de vorm van een landkaart. Ook kunnen de twitteraars worden uitgesplitst naar geslacht en leeftijd.

Waarom Twitter Big Data is

Er wordt gesproken van Big Data wanneer een dataverzameling voldoet aan de drie V’s, te weten Volume, Variëteit en Velocity. Tjong Kim Sang: “Het volume is inderdaad groot, hoewel niet iedereen de volle 140 bytes van een tweet gebruikt. Ook de Velocity (de snelheid) van de berichten is enorm. Op piekmomenten komen er in Nederland zo’n 10.000 tweets per minuut langs. We kunnen die niet allemaal oogsten, omdat Twitter daarvoor een maximum van 3000 tweets per minuut hanteert. Meer mogen we niet uit de Twittersphere schrapen. Zouden we daarboven willen zitten dan komen we in een speciale categorie terecht en moeten we gaan onderhandelen met Twitter.”

Ook over de derde V, die van Variëteit, valt binnen Twitter niet te klagen. De verzameling tweets is een collectie ongestructureerde gegevens met elementen die haast nergens anders voorkomen. “Denk daarbij aan het Twitter-steno, de hashtags, en de vele afkortingen die de gebruikers zelf hebben verzonnen. Soms lijkt dat heel sterk op SMS-taal. Ook daar is de berichtlengte beperkt en mensen willen zoveel mogelijk informatie versturen”, zegt Tjong Kim Sang.

 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Laat de klantenservice je terugbellen!