Klantverloop verminderen door gebruik van data science

Nu je meer weet over de basis van data science gaan we ons verder verdiepen in de transformatie van de data. In deze blog leggen we de classificatiemodellen uit en presenteren we een casus van een voetbalclub.

Classificatie

In de blog over een kennismaking met data science, hebben we al uitgelegd hoe belangrijk data is. Op het moment dat er een betekenis wordt gehangen aan data, verandert de data in bruikbare informatie. Om klantverloop te kunnen voorspellen, is het cruciaal om bruikbare informatie te hebben over klanten. Zoals je je wellicht herinnert van onze vorige blog, zijn er twee belangrijke onderdelen van een machine learning database: de voorspellende variabelen (features) en de target variabel (class). Laten we kijken naar de target variabel die in ons voorbeeld de ‘Animal’ kolom is.

DIKW klantverloop

Binaire classificatie

Er zijn slechts twee waarden voor dieren: ‘kat’ en ‘hond’. Laten we er voor het gemak vanuit gaan dat deze dataset alleen bestaat uit katten en honden. Ons machine learning model kan, eenmaal getraind, alleen kiezen tussen twee waardes. We noemen dit binaire classificatie. Een binair classificatie probleem kan slechts twee waarden (labels) als target variabel hebben. In dit geval ‘kat’ en ‘hond’. Een ander voorbeeld is of een klant iets bij jou gaat kopen of niet. De voorspellende waarde van dit vraagstuk heeft enkel twee uitkomsten; ‘ja’ of ‘nee’. Door gebruik te maken van machine learning algoritmes kun je in staat zijn om dit te voorspellen. Best handig, toch?

Classificeren van meerdere klassen

Je zou nu kunnen denken: “Als er een target variabel met twee labels bestaat, hoe zit het dan met een target variabel met drie labels?”. Een target variabel met drie labels bestaat inderdaad. Net zoals met vier, vijf of twintig labels. Dit noemen we een multiclass problem.

Het concept is volledig hetzelfde: het machine learning algoritme kan één van de ‘n-labels’ voorspellen, in plaats van twee. Wat er echter onder de motorkap gebeurt, is waar het verschil tussen de binaire en multiclass problemen ontstaat.

Het verschil zit hem in de algoritmen

Zoals gezegd hebben binaire classificatie twee labels. Multiclass problems hebben meer dan twee labels. Het fundamentele verschil tussen de twee is het algoritme dat gebruikt wordt. Sommige algoritmes zijn speciaal ontwikkeld voor binaire classificatie. Laten we bijvoorbeeld de logistic regression gebruiken als machine learning algoritme, die is speciaal ontworpen voor binaire classificatie vraagstukken. Onderstaande grafiek laat de statistische functie van het model zien. In tegenstelling tot de linear regression, voorspelt de logistic regression enkel een waarde tussen de 0 en de 1, waar de linear regression een continue waarde voorspelt. Dit maakt de logistic regression perfect voor een binair classificatie vraagstuk.

De y-as van de grafiek toont de kans voor X. Let op: de X-as toont slechts één voorspellende variabele. In werkelijkheid bevat een machine learning model vrijwel altijd meerdere variabelen om een soliede voorspelling te kunnen maken. De lijn die aangeduid is met y is de threshold: als de kans van X (onafhankelijke variabel, voor de statistici) boven de waarde ligt, zal het model dit element classificeren als de ‘correcte’ waarde.

Een voorbeeld van het model

Okay, dat was nogal een theoretische uitleg. Laten we kijken naar een voorbeeld. Misschien heb je de ‘A’ in het onderstaande figuur opgemerkt. Dit punt komt overeen met kenmerk X met een willekeurige waarde. Deze willekeurige waarde heeft een waarschijnlijkheid van 80% om als ‘True’ (in false vs. true) of ‘Overweight’ (in ‘not overweight’ vs. ‘overweight’) te zijn. Of anders gezegd, er is slechts 20% kans dat deze variabele overeenkomt met de klasse ‘False’. In werkelijkheid is de logistic regression complexer, maar dit geeft het algemene idee weer.

klantverloop model

Voorspellen van klantverloop: casus bij een voetbalclub

In dit deel geven we een voorbeeld van een classificatie casus bij voetbalclub A. Elk seizoen verkoopt voetbalclub A seizoenkaarten aan haar fans. Aan het einde van een seizoen vraagt de voetbalclub aan haar fans of ze hun abonnement willen verlengen. De meeste fans zullen dit doen, maar een deel van deze fans zal haar abonnement opzeggen. Deze opzeggers zullen leiden tot een daling van de inkomsten, wat voetbalclub A wil voorkomen. Bovendien, als de voetbalclub zou kunnen weten welke fans zullen gaan opzeggen, zouden ze hierop kunnen inspelen door hen extra aandacht en eventueel een korting te geven. Maar hoe kan voetbalclub A weten welke fans zullen gaan opzeggen?

Kenmerken en de target variabel

Machine learning kan voetbalclub A helpen door deze fans te identificeren. Op basis van de voorgaande seizoenen weet de voetbalclub welke fans in het verleden zijn hebben opgezegd. Waarschijnlijk heeft Voetbalclub A informatie over deze fans, zoals hoe vaak ze de wedstrijden hebben bezocht en wat de prijzen zijn van hun toenmalige seizoenkaarten. Vervolgens kan voetbalclub A dit soort informatie omzetten naar voorspellende variabelen voor een machine learning algoritme. In dit geval is de target variabel die we willen voorspellen of de fan gaat opzeggen?

De voorspelling

Het algoritme kijkt naar de data en probeert het gedrag en van de fans te begrijpen die in het verleden hebben opgezegd. Op basis van deze patronen kan het model een voorspelling doen voor de fans die op dit moment een abonnement hebben. De uitkomst van het geeft voorspellende model geeft per fan aan wat de kans van opzeggen is. Het gevolg is dat deze informatie bijvoorbeeld kan worden doorgegeven aan de marketing- en verkoopafdeling. Vooral zij kunnen hierop acteren, zodat ze het aantal opzeggingen kunnen minimaliseren.

Deze casus is in veel verschillende situaties van toepassing. Elk bedrijf dat een abonnementsmodel heeft, kan met machine learning de opzeggers detecteren. Een paar andere classificatie voorbeelden zijn:

Opsporing van fraude
Spamdetectie
Conversievoorspelling (kopen of niet)
Gezichtsclassificatie (ontgrendel je smartphone met gezichtsherkenning)

Gerelateerde blogs

Welkom artificiële intelligentie

In dit interview spreekt Jonathan Aardema met prof. Eric Postma (hoogleraar Cognitive Science and Artificial Intelligence aan de Universiteit van Tilburg) over het waarom, hoe en wat van artificial intelligence applicaties. Wat zien we in de praktijk en wat zegt de wetenschap erover?

Lees meer

Gartner Magic Quadrant for Business Intelligence Platforms and Analytics 2020

Het Gartner Magic Quadrant for Business Intelligence is een analistenrapport waar we elk jaar naar uitkijken. Zowel de diepte als de reikwijdte van dit onderzoek maken het de moeite waard om te lezen. Maar niet veel mensen nemen de tijd om echt in de details van het rapport te graven.

Lees meer