Blog Almira Pillay banner image

'Eerlijkheid' programmeren in jouw Machine Learning Model

Almira Pillay is een ware AI Specialist. In deze blog neemt ze je mee door het belang van 'eerlijkheid' in programmeren in jouw Machine Learning model. Lees haar blog of word haar collega.

Naar Data

Het belang van 'eerlijk' programmeren in jouw Machine Learning model

Blog Almira Pillay afbeelding 1

"De hoeveelheid werk die we met AI kunnen automatiseren is veel groter dan voorheen. Als leiders is het de verantwoordelijkheid van ons allemaal om ervoor te zorgen dat we een wereld bouwen waarin elk individu de kans heeft om te groeien." - Andrew Ng, medeoprichter en leider van Google Brain

We hebben allemaal het beroemde What NOT to do-voorbeeld gezien, met de bevooroordeelde wervingstool van Amazon. Een project begon in 2014 dat tot doel had het wervingsproces te automatiseren door cv's te beoordelen met kunstmatige intelligentie (AI)-algoritmen, dat resulteerde in oneerlijke beoordelingen en vooroordelen tegenover vrouwen. Het probleem was dat Amazon 10 jaar aan historische gegevens had gebruikt die een duidelijke vooringenomenheid tegen vrouwen bevatten, omdat de tech-industrie grotendeels werd gedomineerd door mannen toen de data werd verzameld. Dat betekende dat het systeem leerde dat mannelijke sollicitanten de voorkeur hadden. Het resultaat? Naast de negatieve reacties en reputatieschade: Amazon trok de stekker uit de tool en ontmantelde het productteam dat verantwoordelijk was voor het maken ervan.

Dit is niet het enige beruchte voorbeeld van AI die verkeerd is gegaan. Laten we het discriminerende Facebook-algoritme, de racistische misdaadvoorspellingssoftware en de zeer niet-inclusieve sociale netwerkapp Giggle, niet vergeten.

In de pre-AI-wereld namen mensen dat soort beslissingen in werving, reclame, gevangenisstraffen en profilering. Vaak worden deze beslissingen gereguleerd door wetten of organisatiewaarden. Tegenwoordig vragen we machines om die beslissingen voor ons te nemen, en dat is allemaal goed en wel omdat machine learning (ML) heeft bewezen ons te overtreffen in veel taken, maar wat gebeurt er als we een dataset gebruiken die vooroordelen bevat? Of wanneer we correlaties identificeren die bestaande maatschappelijke normen versterken die we proberen te veranderen en te corrigeren? Wie houden we verantwoordelijk voor de bevooroordeelde beslissingen die een computer heeft genomen, maar die wij hebben geprogrammeerd?

50 tinten grijs gebied

Laten we het hebben over de slecht gedefinieerde ruimte van vooroordelen en ethiek in AI en hoe vooroordelen überhaupt het algoritme binnenkomen.

Vooroordelen kunnen voortkomen uit niet-representatieve en/of onvolledige data. Dit betekent dat de data die wordt gebruikt om het AI-model te trainen representatiever zijn voor sommige groepen dan voor anderen, waardoor de voorspellingen van het model slechter kunnen zijn voor de ondervertegenwoordigde groepen. Impliciete menselijke vooroordelen kunnen ook een rol spelen. Vaak zijn deze vooroordelen diep in ons verankerd en kunnen ze worden versterkt en gereproduceerd in computerprogramma's en ML-modellen zonder medeweten van de programmeur of data scientist.

Maar hoe zit het met de regels en voorschriften?

In 2019 publiceerde de Europese Unie "Ethische richtlijnen voor betrouwbare AI", waarin staat dat AI transparant, technisch robuust, verantwoordelijk, niet-discriminerend en beschermend voor privacy moet zijn, het maatschappelijk welzijn moet verbeteren en onderworpen moet zijn aan menselijk toezicht. Omdat deze principes slechts een leidraad zijn en er geen wettelijke standaard of definitie van 'eerlijkheid' is, betekenen deze abstracte en algemene richtlijnen niet zo veel voor een data scientist wanneer hij of zij een goed presterend model probeert te implementeren dat simpelweg voldoet aan de zakelijke vereisten. De moeilijke, maar belangrijkste taak ligt in het in de praktijk proberen te brengen van ethische eisen.

Oefening baart kunst

Om ethische risico's proactief te bestrijden zonder modelprestaties op te offeren, moeten we eerst 'eerlijkheid' definiëren.
 

Een model wordt als 'eerlijk' beschouwd als het vergelijkbare voorspellingen geeft aan vergelijkbare groepen of individuen.


In meer detail: een model is 'eerlijk' als de voorspeller een gelijk echt-positief percentage geeft voor de groep met een positieve uitkomst en een gelijk vals-positief percentage geeft voor de groep met negatieve uitkomst.

Vervolgens kunnen we onze biasdetectie en mitigatietechnieken opsplitsen in fasen. Dezelfde fasen die de ontwikkeling van een AI-model beheersen: data begrip & voorbewerking; modelontwikkeling & nabewerking en modelevaluatie & auditeren.

Blog Almira Pillay afbeelding 3

De AI-ontwikkelingscyclus

1. Data begrip & voorbewerking

Zoals het beroemde data science gezegde luidt 'garbage in, garbage out'. Effectieve detectie van bias en vooroordelen begint in de fase van dataverzameling en voorbewerking. Als de data de werkelijke verdeling van data in het echte leven niet weerspiegelen, zal een getraind ML-model de vooroordelen versterken. We kunnen dit verminderen door de verklarende eigenschappen van de minderheidsgroep te herijken, door de minderheidsgroep te ‘oversamplen’ of door de meerderheidsgroep te ‘undersamplen’. Imputatiemethoden kunnen ook worden gebruikt om ontbrekende gegevens te reconstrueren om ervoor te zorgen dat de dataset representatief is.

2. Modelontwikkeling

Om bias en vooroordelen tijdens de trainingsfase te bestrijden, is een populaire techniek om adversarial debiasing te gebruiken met generatieve adversarial networks (GANs). In deze benadering probeert het ene netwerk een voorspelling van een gekozen uitkomst te maken aan de hand van de verklarende variabelen, terwijl het tweede netwerk probeert het beschermde attribuut te voorspellen op basis van de uitkomst van het getrainde model. Deze techniek maximaliseert de nauwkeurigheid en zorgt tegelijkertijd voor een eenrichtingsrelatie tussen het beschermde attribuut en de voorspelling, dat betekent dat het beschermde attribuut niet kan worden afgeleid op basis van de voorspelling. Dit zorgt voor gelijke uitkomsten voor beide groepen.

3. Nabewerking

We kunnen in de nabewerkingsfase een deterministisch algoritme zoals ‘reject option’-classificatie gebruiken. Dit kan worden gebruikt om uitkomsten te wisselen tussen de gunstige en ongunstige groep in de buurt van de beslissingsgrens. Er kan een drempelwaarde voor het wisselen van resultaten worden gekozen, zodat als een gunstige uitkomst wordt voorspeld en het individu deel uitmaakt van de begunstigde groep en minder ver dan de drempelwaarde van beslissingsgrens af ligt; ze worden geruild met een individu uit de ondervertegenwoordigde groep. Deze techniek is bedoeld om een gelijke reeks voorspellingen te bieden door die van de minderheidsgroep te stimuleren.

4. Modelevaluatie & auditeren

Ten slotte moeten we de prestaties van de bovenstaande technieken evalueren om te begrijpen of het model en de resultaten echt 'eerlijk' zijn. Daarvoor kunnen we de volgende criteria gebruiken:

  • Statistisch pariteitsverschil: Het verschil in het percentage gunstige uitkomsten ontvangen door de minderheidsgroep in vergelijking met de meerderheidsgroep.
  • Verschil in gelijke kansen: het verschil in de percentages echt-positieven tussen minderheids- en meerderheidsgroepen.
  • Verschil in gemiddelde waarschijnlijkheid: Het gemiddelde verschil van het percentage vals-positieven en het percentage echt-positieven tussen minderheids- en meerderheidsgroepen.
  • Ongelijksoortige impact: De verhouding van het percentage gunstige uitkomsten voor minderheidsgroepen in vergelijking met meerderheidsgroepen.
Blog Almira Pillay afbeelding 5

Een visuele weergave van statistisch pariteitsverschil: met behulp van historische trainingsgegevens voorspelt een financieel model of de lening van een persoon zal worden goedgekeurd (een positieve uitkomst) of geweigerd (een negatieve uitkomst). Statistisch gezien levert het model 60% van de tijd een positief resultaat op voor groep B en 50% van de tijd een positief resultaat voor groep A. In dit geval is het statistische pariteitsverschil = -10% (50%-60%), wat suggereert dat het model oneerlijk bevooroordeeld is ten opzichte van groep A.

Deze criteria moeten worden geëvalueerd door de stakeholders van het model om te bepalen of de resultaten eerlijk en geschikt zijn voor gebruik in productie.

IBM Research heeft gelukkig een oplossing bedacht om onze ethische AI-dilemma's te bestrijden met hun open-source AI Fairness 360 Toolkit (AIF360). Dit is een zeer handig Python-pakket dat functies bevat met de bovengenoemde technieken, evenals nog veel meer op basis van de use-case van het model.

Hoe ronden we dit af?

De eerste stap bij het implementeren van een techniek voor het verminderen van vooroordelen is om de oorzaken van vooroordelen in AI-modellen te begrijpen, evenals een volledig begrip krijgen van de context en de toepassingen van de use-case. Met dit inzicht kunnen we de beste aanpak kiezen om de verkeerde voorstellingen in onze gegevens en/of voorspellingen te corrigeren. Met de bovenstaande methoden in gedachten liggen we op schema voor het creëren van ethische, betrouwbare en inclusieve AI.

Bij Sogeti draait alles om waakzaam zijn en op de hoogte blijven van de nieuwste technieken voor het beperken van vooroordelen, zodat we betrouwbare en hoogwaardige oplossingen aan onze klanten kunnen leveren. Daarom hebben we het Quality AI Framework (QAIF) ontwikkeld.

Blog Almira Pillay afbeelding 6

Sogeti Quality AI Framework (QAIF)

Het QAIF is een praktisch raamwerk met geavanceerde tools en technieken op basis van statistiek en ML dat de levenscyclus van AI-producten begeleidt, wat zorgt voor kwaliteitscontrole en een goed presterende oplossing. Het QAIF evalueert en behandelt niet alleen datakwaliteit en -vooroordelen, maar ook modelkwaliteit en validatie. Het behandelt verschillende use-cases voor gestructureerde en ongestructureerde data. Het raamwerk is gebaseerd op de principes van verantwoording, eerlijkheid en transparantie - de drie-eenheid van vertrouwen. Immers, als we onze AI niet vertrouwen, waarom zouden we het dan implementeren?

Verder met data

Is stilstaan niks voor jou? Wil jij iedere dag leren en kunnen sparren met vakgenoten? Neem gerust contact op, ik vertel je er graag meer over. Of bekijk de vacatures.

Naar vacatures

Kan ik je helpen?

Sogeti Maaike Somers Recruiter
Phone number: +31625755508

Verder lezen?

Ontdek meer verhalen van Sogeti collega's!

Naar blogs