Zijn er eigenlijk terreinen waar we data-technologie absoluut níet voor zouden moeten inzetten?

Het wordt al gebruikt in de liefde, om op basis van data de beste match te produceren, in de verkiezingen, om te voorspellen wie er gaat winnen, en nu ook ook al bij het voorspellen van ontwikkelingen in populaire TV-series.
Game of Thrones om precies te zijn. Is er dan helemaal niets meer heilig? 

*** SPOILER ALERT *** Zij die seizoen 1-5 van Game of Thrones nog niet volledig gezien (of gelezen) hebben, of iedereen die gewoon een hekel heeft aan spoilers of het speculeren over hoofdpersonen, kunnen hier beter stoppen met lezen… 

Analytics

Predictive analytics en machine learning hebben nu de potentie om alle spanning uit populaire TV-shows te halen. Net nu de serie Game of Thrones niet meer aan de leiband hoeft te lopen van de al eerder gepubliceerde boeken van George R.R. Martin’s ‘A Song of Ice and Fire’ serie (waardoor lezers al vijf seizoenen lang eerder wisten wat er zou gaan gebeuren dan de kijkers), gaan ze nu met behulp van analytics voorspellen wat er gaat gebeuren.

Data

Al zolang het internet bestaat, zijn mensen wereldwijd bezig geweest met het vergelijken en verzamelen van details over elk denkbaar onderwerp. Bezig met het proppen van gegevens in wiki's, het bouwen van webpagina's boordevol feiten, en het gebruik ervan om elkaar op message boards en fora de loef af te steken.

Zo komen we aan databases als IMDB, Wikipedia, en Numbeo. Een zo’n gigantische online verzameling is de Wiki of Ice and Fire, een door fans gemaakte website op basis van George R.R. Martin’s A Song of Ice and Fire (ASOIAF) serie en HBO's populaire tv-serie Game of Thrones.

De Wiki of Ice and Fire is zeer uitgebreid; het bevat  meer dan 7000 artikelen die de informatie samenvatten uit vijf romans, vijf seizoenen van de tv-serie, en andere verwante media. Het is een onuitputbare bron voor liefhebbers van fantasy boeken.

Mar onlangs heeft een groep studenten en hun adviseurs aan de Technische Universiteit van München besloten om echt gebruik te maken van al die gegevens. Ze hebben een machine learning algoritme ontworpen dat online data-analyses maakt van Game of Thrones wiki's en Twitter, en op basis daarvan voorspelt hoe waarschijnlijk het is dat een bepaald personage zal sterven.

Valar morghulis, Valar dohaeris

Voordat we uitleggen hoe analytics de nieuwe spoiler is geworden, even snel een opfriscursus over wat analytics eigenlijk is. In een notendop: analytics is het distilleren van grote hoeveelheden gegevens tot gemakkelijk consumeerbare beknopte informatie. Predictive analytics probeert daarbij in de toekomst te kijken door gebruik te maken van historische gegevens en statistische technieken.

Maar terug naar de sterfelijkheid van onze geliefde personages.

Door de data na te trekken van de 2028 (!) personages die in het verhaal voorkomen, heeft het team in Duitsland een aantal interessante statistieken verzameld en in kaart gebracht, die hen helpen resultaten te voorspellen:

  • De wereld van ASOIAF is echt een mannenwereld met in personages een man/vrouw-verhouding van iets meer dan 2:1. 
  • Vrouwen hebben echter veel meer kans om in deze bloederige wereld te overleven: 43% van de mannelijke personages zijn aan het eind van boek 5 dood, terwijl 79% van de vrouwelijke personages nog in leven zijn.
  • Verrassend genoeg maakt rang relatief weinig verschil in risiconiveau. Koningen, priesters, edelen en boeren lopen allemaal een evenbgroot risico om te sterven.
  • Uiteraard, lopen personages in de bloei van hun leven, in de leeftijd van 21-40 jaar, het grootste risico om het loodje te leggen.

Volgens de beschikbare gegevens spelen geslacht, rang en leeftijd dus allemaal een rol bij het voorspellen van de kans op iemands dood. Hun gebruik van machine learning leidt computers naar voorspellingen op basis van een groot aantal voorbeelden uit het verleden, waarop ze de statistische kans doortrekken naar de toekomst. In dit project,  zocht het team gericht naar gemeenschappelijke kenmerken van alle dode personages om vervolgens op basis daarvan met diezelfde kenmerken de nog levende personages tegen het licht te houden.

You know nothing,  Jon Snow

Maar hoe zit het met Jon Snow? Toen we hem voor het laatst zagen aan het einde van de cliffhanger finale van vorig seizoen, zag hij er nogal dood uit. Iedereen die iets met de show had was het erover eens dat hij hartstikke dood was. Maar wat zeggen de data? Volgens het algoritme was Jon Snow’s kans op dit ontijdige overlijden slechts 11%!

Vaarwel, Stannis. Het was statistisch onvermijdelijk, denk ik, met jou als legerleider en zo.

Kijk naar hun cijfers. Feitelijk hebben VEEL meer mensen een grotere kans om eerder te sterven dan Jon Snow. Op basis van het algoritme en de analyse van het Twitter-sentiment, is Jon Snow veel te populair om op dit moment te doden. Niet dat dit de serie overigens ooit eerder lijkt te hebben weerhouden van het laten overlijden van hoofdpersonen…

Maar in dit geval lijken de enorm negatieve sentimenten en reacties van de fans een indicator dat de producenten nog iets achter de hand hebben en dat Jon dus nog steeds een kanshebber is voor de IJzeren Troon. Dus, als Kit Harington niet terugkeert, in wat voor vorm dan ook, en Jon Snow echt dood is, dan zou het een statistische shocker zijn.

En dit zijn allemaal uitkomsten van serieuze, échte analytics die ons de waarschijnlijke uitkomsten geven van de kans op de dood van een fictief personage, gebaseerd op feitelijke gegevens en statistische vergelijkingen. Kun je nagaan wat we kunnen ontdekken wanneer we beter gaan kijken naar de data in onze eigen wereld, in plaats van het fictieve Westeros.

Weten wat je nog meer met Analytics kunt doen? Volg dan op 12 mei om 11:00 uur ons Wave Analytics Webinar