Nu je meer weet over de basis van data science gaan we ons verder verdiepen in de transformatie van de data. In deze blog leggen we de classificatiemodellen uit en presenteren we een casus van een voetbalclub.
In de blog over een kennismaking met data science, hebben we al uitgelegd hoe belangrijk data is. Op het moment dat er een betekenis wordt gehangen aan data, verandert de data in bruikbare informatie. Om klantverloop te kunnen voorspellen, is het cruciaal om bruikbare informatie te hebben over klanten. Zoals je je wellicht herinnert van onze vorige blog, zijn er twee belangrijke onderdelen van een machine learning database: de voorspellende variabelen (features) en de target variabel (class). Laten we kijken naar de target variabel die in ons voorbeeld de ‘Animal’ kolom is.
Er zijn slechts twee waarden voor dieren: ‘kat’ en ‘hond’. Laten we er voor het gemak vanuit gaan dat deze dataset alleen bestaat uit katten en honden. Ons machine learning model kan, eenmaal getraind, alleen kiezen tussen twee waardes. We noemen dit binaire classificatie. Een binair classificatie probleem kan slechts twee waarden (labels) als target variabel hebben. In dit geval ‘kat’ en ‘hond’. Een ander voorbeeld is of een klant iets bij jou gaat kopen of niet. De voorspellende waarde van dit vraagstuk heeft enkel twee uitkomsten; ‘ja’ of ‘nee’. Door gebruik te maken van machine learning algoritmes kun je in staat zijn om dit te voorspellen. Best handig, toch?
Je zou nu kunnen denken: “Als er een target variabel met twee labels bestaat, hoe zit het dan met een target variabel met drie labels?”. Een target variabel met drie labels bestaat inderdaad. Net zoals met vier, vijf of twintig labels. Dit noemen we een multiclass problem.
Het concept is volledig hetzelfde: het machine learning algoritme kan één van de ‘n-labels’ voorspellen, in plaats van twee. Wat er echter onder de motorkap gebeurt, is waar het verschil tussen de binaire en multiclass problemen ontstaat.
Zoals gezegd hebben binaire classificatie twee labels. Multiclass problems hebben meer dan twee labels. Het fundamentele verschil tussen de twee is het algoritme dat gebruikt wordt. Sommige algoritmes zijn speciaal ontwikkeld voor binaire classificatie. Laten we bijvoorbeeld de logistic regression gebruiken als machine learning algoritme, die is speciaal ontworpen voor binaire classificatie vraagstukken. Onderstaande grafiek laat de statistische functie van het model zien. In tegenstelling tot de linear regression, voorspelt de logistic regression enkel een waarde tussen de 0 en de 1, waar de linear regression een continue waarde voorspelt. Dit maakt de logistic regression perfect voor een binair classificatie vraagstuk.
De y-as van de grafiek toont de kans voor X. Let op: de X-as toont slechts één voorspellende variabele. In werkelijkheid bevat een machine learning model vrijwel altijd meerdere variabelen om een soliede voorspelling te kunnen maken. De lijn die aangeduid is met y is de threshold: als de kans van X (onafhankelijke variabel, voor de statistici) boven de waarde ligt, zal het model dit element classificeren als de ‘correcte’ waarde.
Okay, dat was nogal een theoretische uitleg. Laten we kijken naar een voorbeeld. Misschien heb je de ‘A’ in het onderstaande figuur opgemerkt. Dit punt komt overeen met kenmerk X met een willekeurige waarde. Deze willekeurige waarde heeft een waarschijnlijkheid van 80% om als ‘True’ (in false vs. true) of ‘Overweight’ (in ‘not overweight’ vs. ‘overweight’) te zijn. Of anders gezegd, er is slechts 20% kans dat deze variabele overeenkomt met de klasse ‘False’. In werkelijkheid is de logistic regression complexer, maar dit geeft het algemene idee weer.
In dit deel geven we een voorbeeld van een classificatie casus bij voetbalclub A. Elk seizoen verkoopt voetbalclub A seizoenkaarten aan haar fans. Aan het einde van een seizoen vraagt de voetbalclub aan haar fans of ze hun abonnement willen verlengen. De meeste fans zullen dit doen, maar een deel van deze fans zal haar abonnement opzeggen. Deze opzeggers zullen leiden tot een daling van de inkomsten, wat voetbalclub A wil voorkomen. Bovendien, als de voetbalclub zou kunnen weten welke fans zullen gaan opzeggen, zouden ze hierop kunnen inspelen door hen extra aandacht en eventueel een korting te geven. Maar hoe kan voetbalclub A weten welke fans zullen gaan opzeggen?
Machine learning kan voetbalclub A helpen door deze fans te identificeren. Op basis van de voorgaande seizoenen weet de voetbalclub welke fans in het verleden zijn hebben opgezegd. Waarschijnlijk heeft Voetbalclub A informatie over deze fans, zoals hoe vaak ze de wedstrijden hebben bezocht en wat de prijzen zijn van hun toenmalige seizoenkaarten. Vervolgens kan voetbalclub A dit soort informatie omzetten naar voorspellende variabelen voor een machine learning algoritme. In dit geval is de target variabel die we willen voorspellen of de fan gaat opzeggen?
Het algoritme kijkt naar de data en probeert het gedrag en van de fans te begrijpen die in het verleden hebben opgezegd. Op basis van deze patronen kan het model een voorspelling doen voor de fans die op dit moment een abonnement hebben. De uitkomst van het geeft voorspellende model geeft per fan aan wat de kans van opzeggen is. Het gevolg is dat deze informatie bijvoorbeeld kan worden doorgegeven aan de marketing- en verkoopafdeling. Vooral zij kunnen hierop acteren, zodat ze het aantal opzeggingen kunnen minimaliseren.
Deze casus is in veel verschillende situaties van toepassing. Elk bedrijf dat een abonnementsmodel heeft, kan met machine learning de opzeggers detecteren. Een paar andere classificatie voorbeelden zijn:
Tijdens deze Masterclass bespreken we uitvoerig de kracht van het Power Platform en de gecombineerde kracht met process mining. We gaan samen met jou hebben over drie scenario’s die je bedrijfsvoering kunnen verbeteren: Order2cash, een OnboardingApp, en een Customer Order Portal. Tijdens de Masterclass staat interactie centraal, zodat jij precies de antwoorden krijgt die je zoekt.
Dit webinar verkent Databricks en waarom je deze tool zou moeten overwegen boven andere prominente data-infrastructuren. In ongeveer 15 minuten verkennen we verschillende aspecten van Databricks, hoe het zich verhoudt tot andere tools en of je moet overwegen om over te stappen naar Databricks.
Forrester Research voorspelt dat bedrijven met slimme Data & Automation programma’s hun concurrenten niet alleen zullen inhalen, maar zelfs verpletteren. Als je Data & Automation op de juiste manier integreert, heb je een flinke voorsprong. Tijdens “The Future of Data & Automation: Your Roadmap for 2025” geven wij je de tips en tricks die er voor zorgen dat je Data & Automation naar een hoger niveau getild worden.