Wat zijn ‘AI-guardrails’? | WilfredRubens.com over leren en ICT

Als je leest over (generatieve) AI, dan kom je de term ‘AI-guardrail’ regelmatig tegen. McKinsey heeft een informatief artikel geschreven over wat deze vangrails zijn (inclusief voordelen, typen, de werking, de waarde en de toepassing ervan).

DALL-E: Hier is de afbeelding die een AI-toepassing voorstelt met een fles bier tussen vangrails.

AI-guardrails zijn richtlijnen en technische maatregelen die organisaties helpen om AI, met name generatieve AI (gen AI) en large language models (LLM’s), verantwoord te gebruiken. Deze vangrails zorgen ervoor dat AIsystemen consistent voldoen aan de normen, beleidsregels en waarden van een organisatie.

Generatieve AI heeft volgens McKinsey veel voordelen zoals efficiëntie en innovatie, maar brengt ook risico’s met zich mee zoals verkeerde informatie verstrekken, beveiligingslekken en ethische problemen. AI-guardrails dienen als beschermmechanisme om deze risico’s te beperken. Ze ondersteunen:

Privacy en Beveiliging. Bescherming tegen aanvallen die AI-systemen willen manipuleren.
Regelgeving. Naleving van wet- en regelgeving waardoor juridische risico’s meer beperkt worden.
Vertrouwen. Waarborging van correcte en ethische verantwoorde output. Dit kan reputatieschade voorkomen.

Soorten Guardrails

McKinsey onderscheidt diverse soorten AI-guardrails:

Geschiktheid (appropriateness). Filtert inhoud die schadelijk, bevooroordeeld of stereotyperend is.
‘Hallucineren’ (hallucination). Voorkomt feitelijke onjuistheden in de gegenereerde output.
Naleven van regelgeving (regulatory compliance). Verifieert naleving van regelgeving.
Afstemming (alignment). Zorgt dat output overeenkomt met gebruikersverwachtingen en bedrijfswaarden.
Valideren (validation). Controleert of output aan specifieke criteria voldoet, met een correctieproces voor afwijkingen.

Guardrails maken daarbij gebruik van diverse technologieën zoals:

Open-source bibliotheken zoals Nvidia’s NeMo Guardrails en OpenAI’s Moderation.
Modulaire systemen, zoals LangChain, waarmee organisaties guardrails kunnen integreren in bestaande workflows.

Guardrails werken vaak deterministisch, met vier kerncomponenten:

Checker: detecteert fouten.
Corrector: corrigeert inhoud.
Rail: Coördineert controle en correctie.
Guard: Beheert alle processen en levert veilige output.

MicKinsey geeft onder meer het voorbeeld van ING. Deze financiële instelling past AI-guardrails toe bij de ontwikkeling van een chatbot. Deze guardrails zorgeen voor naleving van regelgeving en veilige interacties met klanten. Door dergelijke maatregelen kunnen bedrijven vertrouwen winnen, juridische risico’s vermijden, met als neveneffect het aantrekken van talent.

De bijdrage van McKinsey gaat ook in op hoe je dergelijke vangrails op grotere schaal toepast. Ten eerste is het van belang om een divers team samen te stellen dat de veiligheidsmaatregelen ontwerpt. Dit team moet bestaan uit verschillende experts, waaronder juridische specialisten, die mogelijke risico’s kunnen identificeren en beoordelen. Vervolgens is het belangrijk om duidelijke kwaliteitscriteria vast te stellen die aansluiten bij de organisatiedoelen en geldende regelgeving. Deze criteria moeten onder andere vooroordelen en ongepaste inhoud kunnen herkennen en beoordelen of de output past bij de interne richtlijnen. De veiligheidsmaatregelen moeten flexibel zijn en aangepast kunnen worden aan verschillende AI-toepassingen. Omdat AI-systemen zich aanpassen op basis van gebruikersinput, is het essentieel om dynamische controlesystemen in te bouwen die de output kunnen monitoren en bijsturen. Tenslotte moet een organisatie investeren in het ontwikkelen van nieuwe vaardigheden en functies. Er zijn volgens McKinsey specialisten nodig die verantwoordelijk zijn voor de resultaten van de AI-systemen en die kunnen zorgen voor transparantie, goed bestuur en eerlijkheid in het gebruik van AI.

Mijn opmerkingen

Zoals ik in de inleiding al schreef, heeft McKinsey een nuttige inleiding geschreven over AI-guardrails. Zij richten zich daarbij op vangrails die een organisatie, die (generatieve) AI toepast, kan ontwikkelen en gebruiken. Ontwikkelaars van generatieve AI-toepassingen zelf zouden dergelijke vangrails echter ook moeten inbouwen in hun systemen. Een overheid zou daar op moeten sturen en toezien. Helaas hebben we ook wat dat betreft weinig te verwachten van de nieuwe Amerikaanse overheid. Zoals de NOS gisteren schreef: de belangen van Silicon Valley gaan de komende vier jaar een grote rol spelen met een groot geloof in technologie, veel vrijheid, weinig regels en overheidsbemoeienis. We moeten wat dat betreft meer vertrouwen op de EU.

Andere bronnen over generatieve AI

Mijn bronnen over (generatieve) artificiële intelligentie

Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.

This content is published under the Attribution 3.0 Unported license.

Soorten Guardrails

Geef een reactie