Machine Learning Workshop

Machine Learning Workshop

Met de trend naar meer rekenkundige middelen en grotere datasets, heeft de toepassing van machine learning (ML) in finance aan aantrekkingskracht gewonnen. Financiële instellingen zijn geïnteresseerd in hoe en waar ML-modellen van toegevoegde waarde kunnen zijn in hun businessmodel. In de afgelopen twee jaar heeft Zanders onderzoek gedaan naar de toepasbaarheid van ML op het gebied van asset & liability management (ALM) en kredietrisico. Een van deze onderzoeken omvatte een schatting van het risico om in gebreke te blijven (PD, probability of default) bij zakelijke of particuliere leningen. De resultaten leken relevant en inzichtelijk, en daarom besloten we deze te delen met onze klanten in de vorm van een Workshop Machine Learning. In dit artikel delen we de belangrijkste resultaten.

Inmiddels hebben we meerdere malen een Machine Learning Workshop georganiseerd in de Zwitserse markt om te illustreren hoe ML binnen de bank van toegevoegde waarde kan zijn. De workshop werd gehouden voor de afdeling modelontwikkeling en modelvalidatie. Voorkennis van kredietrisico of ML was niet vereist. We begonnen met een beschrijving van een classificatieprobleem en een uitgebreide uitleg van de statistische modellen en ML-modellen die kunnen worden gebruikt om dit probleem aan te pakken. Vervolgens behandelden we de PD-schatting (wat een classificatieprobleem is) en voerden we de schatting uit aan de hand van statistische modellen en ML-modellen. In het laatste deel vergeleken we de resultaten, waaruit we onder andere de prestaties, geschiktheid en interpreteerbaarheid hebben kunnen concluderen.

Classificatieprobleem

Classificatie is het probleem van het identificeren tot welke reeks categorieën een nieuwe observatie behoort, op basis van een trainingsset van data met observaties waarvan het categorielidmaatschap bekend is. Een voorbeeld van een classificatieprobleem is het classificeren van een e-mail als spam op basis van de woorden die in de e-mail worden gebruikt. Andere voorbeelden zijn het classificeren van een Iris-dataset (lisbloem) als Setosa, Virginica of Versicolor op basis van de breedte en lengte van het bloemblad en het classificeren van een bedrijf als ‘in gebreke’ (defaulted) op basis van financiële ratio’s.

Statistische modellen

Om classificatieproblemen op te lossen, is het gebruikelijk om traditionele statistische modellen te gebruiken, die degelijk en interpreteerbaar zijn. De statistische modellen die in het kader van de workshop vallen, zijn lineaire discriminantanalyse (LDA), logistische regressie, LASSO-regressie (Least Absolute Shrinkage and Selection Operator), Ridge-regressie en Elastic Net-regressie (gereguleerde lineaire regressie). Bij LDA gaat men ervan uit dat de invoergegevens afkomstig zijn van een multivariate normale verdeling. Een klassenvoorspelling wordt gedaan door de parameters van de verdeling te schatten en de lineaire discriminantfuncties te bepalen. De voorspelling wordt bepaald door de functie die de hoogste waarde voor de invoervariabelen oplevert. Bij logistische regressie, het meestgebruikte binaire resultatenmodel, wordt de selectie aan de hand van een maximale waarschijnlijkheidsschatting (MLE, maximum likelihood estimation) geclassificeerd, wat betekent dat de variabelen worden geselecteerd die waarschijnlijk tot de juiste classificatie leiden op basis van onze gegevens. MLE biedt onvertekende schattingen en bevat daarom soms veel verklarende variabelen in het model. Het toestaan van enige vertekening door beperking van het aantal verklarende variabelen kan leiden tot een hogere voorspellende nauwkeurigheid en betere interpreteerbaarheid. Bij Ridge-regressie, Lasso-regressie en Elastic Net-regressie wordt dit juist gedaan door minder bijdragende variabelen te benaderen. Details en eigenschappen van de statistische modellen worden in de workshop verstrekt.

ML-modellen in het kader

Naast statistische modellen kunnen ML-modellen worden gebruikt om classificatieproblemen aan te pakken. De ML-modellen die in het kader van de workshop vallen zijn: Decision Tree (beslisboom), Random Forest, Gradient Boosting, Extreme Gradient Boosting en Neural Networks (neurale netwerken). De Decision Tree (beslisboom), zoals de naam al doet vermoeden, is een boom van verschillende beslissingen en takken die de data in verschillende categorieën verdelen. Figuur 1 toont een voorbeeld van een beslisboom voor een vereenvoudigd PD-classificatiemodel op basis van slechts twee risicofactoren: leeftijd en inkomen.

PD classifier

Figuur 1 (links): Voorbeeld van een beslisboom voor een vereenvoudigde PD-classificatie met twee risicofactoren: leeftijd en inkomen. De eerste beslissing is of (op basis van ervaring uit een grote selectie van historische observaties) een potentiële toekomstige klant wordt geclassificeerd als een potentiële toekomstige klant met een laag of hoog risico om in gebreke te blijven (PD) op basis van een leeftijdslimiet (in dit geval 75 jaar). Aanvragers van 75 jaar of ouder (rechter boomtak) worden geclassificeerd als iemand met een hoog PD, terwijl aanvragers jonger dan 75 (linker boomtak) doorgaan naar de volgende vertakking van de beslisboom. Hier worden aanvragers jonger dan 75 en zonder stabiel inkomen (linker boomtak) opnieuw geclassificeerd als iemand met een hoog PD, terwijl aanvragers jonger dan 75 en met een stabiel inkomen uiteindelijk worden geclassificeerd als onwaarschijnlijk om in gebreke te blijven op de lening (laag PD).

Bij Random Forest wordt een grote verzameling onsamenhangende beslisbomen opgezet en worden de resultaten vervolgens gemiddeld, terwijl bij Gradient Boosting meerdere beslisbomen gebruikt worden om de fout in de voorspelling te minimaliseren*. Bij Neural Networks (neurale netwerken) zijn gebaseerd op de neurale netwerken die we kennen uit de biologie, waarbij wordt aangenomen dat de data gemodelleerd kunnen worden in een invoerlaag, een uitvoerlaag en een of meerdere verborgen lagen. Het algoritme is getraind om met een subset van de data te werken om de relaties (weging) tussen deze lagen zo goed mogelijk vast te stellen. Deze relaties worden vervolgens gebruikt om de uitvoerlaag voor een bepaalde invoerlaag te voorspellen. Tijdens de workshop gaan we dieper in op de wiskundige eigenschappen van de verschillende ML-modellen.

PD-schatting bij zakelijke of particuliere leningen

Om een grotere verscheidenheid aan portefeuillestructuren vast te leggen, hebben we de bovengenoemde modellen toegepast op twee verschillende portefeuilles.
De eerste bestaat uit 80.000 observaties op zakelijk leningniveau, verspreid over acht Europese landen. Het bevat balans-/P&L-informatie, met een totaal aandeel van in gebreke blijven van minder dan 1% van alle observaties op zakelijk leningniveau. Dit aandeel wordt vervolgens behouden bij het splitsen van de selectie in een trainingsselectie met 80% van de observaties en een testselectie met 20%. Het voordeel van een dergelijke portefeuille is dat externe ratings beschikbaar zijn om te benchmarken en te clusteren, waardoor een vergelijking van voorspellend vermogen binnen landen en ratingklassen mogelijk is.

De tweede portefeuille bestaat uit meer dan 600.000 observaties op hypothecair leningniveau, die 50.000 unieke kredietlijnen bij leningen in vijftig Amerikaanse staten dekken. De hypothecaire dataset is indicatief voor de samenstellingsverschillen tussen portefeuillesoorten en heeft met bijna 2,5% een veel hoger aandeel van in gebreke gebleven leningen.

Resultaten

Uit de resultaten van de analyse konden we de prestaties, interpreteerbaarheid en geschiktheid van de verschillende modellen concluderen.

Prestaties

Bij het vergelijken van de twee sets PD-modellen in de twee portefeuilles (zakelijke en hypothecaire leningen) zien we dat geselecteerde ML-modellen zoals Extreme Gradient Boosting beter presteren dan alle statistische modellen wat betreft voorspellend vermogen, inclusief de populaire logistische regressie (zie figuur 2). Bovendien ontdekten we dat het modelprestatiepatroon consistent is in alle portefeuilles voor zakelijke en hypothecaire leningen. Ten slotte zagen we dat de resultaten van de verschillende statistische modellen dicht bij elkaar liggen, terwijl de resultaten onder verschillende ML-modellen wezenlijk verschillen.

Logistic Regression and Extreme Gradient Boosting

Figuur 2: Modelvergelijking tussen logistische regressie en Extreme Gradient Boosting zoals gemeten aan de hand van het gebied onder de curve van de ontvanger (AUC)

Aan de hand van hetzelfde voorbeeld als hierboven, waarbij de logistische regressie wordt vergeleken met Extreme Gradient Boosting, stellen we dat de voorspelling van het risico op in gebreke blijven in de onderliggende verdeling wezenlijk verschilt. Dit verschil kan van invloed zijn op de algehele portefeuillerating (zie figuur 3).

Comparison of the predicted distribution of Probability of Default

Figuur 3 Vergelijking van de voorspelde verdeling van het risico om in gebreke te blijven (PD) tussen logistische regressie en Extreme Gradient Boosting

Interpreteerbaarheid

De ML-modellen presteerden duidelijk beter dan de statistische modellen. We ontdekten echter dat de afhankelijkheidsstructuur tussen de invoervariabelen en de doelvariabele moeilijk te identificeren was met ML-modellen. Bij statistische modellen konden we bepalen hoeveel voorspellend vermogen elke afzonderlijke invoervariabele had, maar dit was niet eenduidig bij alle ML-modellen.

Geschiktheid

De beperkte interpreteerbaarheid van de ML-modellen vormt een uitdaging voor de implementatie ervan; het uitleggen van de resultaten aan een toezichthouder en/of een validator is moeilijk (indien al mogelijk). We raden daarom aan om de ML-modellen te implementeren als challenger-modellen voor statistische modellen om:

  1. meer inzicht te krijgen in de relatie tussen de afhankelijke variabele en verklarende variabelen;
  2. potentiële data- en/of modelproblemen te identificeren;
  3. een goede afweging te maken tussen het voordeel van voorspellend vermogen versus de kosten om over te stappen van een statistisch model naar een ML-model.

Volgende stappen

De workshop in Zwitserland leidde tot interessante discussies over modelontwikkeling, modelvalidatie, wettelijke vereisten en ML-modellen. Na het delen van ervaringen en kennis besloot de bank een aantal van de ML-modellen te implementeren om ze eventueel als challenger-modellen te gebruiken.

De resultaten van de analyse vormden de basis voor verschillende onderzoeksinitiatieven binnen Zanders. Het maakte ons bewust van het feit dat het mitigeren van de tekortkomingen van ML-modellen op het gebied van interpreteerbaarheid kan bijdragen aan het besluit om meer gebruik te maken van ML-modellen. Daarom zijn onze volgende stappen het verbeteren van de interpreteerbaarheid door het gebruik van nieuwe technieken zoals hybride modellen of game theory-methoden om de uitvoer van ML-modellen te verklaren (bijv. SHAP, Shapley Additive exPlanations).

Daarnaast willen we meer workshops organiseren als platforms om onze challenger-modelfuncties uit te leggen en onze ondersteuning voor modelontwikkeling en modelvalidatiefuncties verder aan te passen.

Voetnoot:

*) Gezien de granulaire vermogen van een dergelijk model, benaderen de voorspellingen vaak te veel de werkelijke waarden (het zogenaamde overfitting), waardoor het gebruik van het model voor andere datasets wordt beperkt. Om dit ongewenste effect te beheersen, implementeren we ook Extreme Gradient Boosting, dat regulariseert (d.w.z. Fluctuaties bestraft die extreme waarden genereren).