LLM’s in forensisch onderzoek: hints, herleidbaarheid en juridische toetsing

Large Language Models (LLM’s) zoals ChatGPT en BelkaGPT doen steeds nadrukkelijker hun intrede in het forensisch onderzoek. Deze blog is gebaseerd op een redactioneel artikel van Hans Henseler (Nederlands Forensisch Instituut, Hogeschool Leiden) en Diederik Aben (Advocaat-Generaal bij de Hoge Raad), dat oorspronkelijk verscheen in Expertise en Recht 2025-5. In dat artikel wordt uitgebreid ingegaan op de kansen en juridische aandachtspunten van LLM’s binnen het digitale forensische domein. In combinatie met retrieval-augmented generation (RAG) kunnen dergelijke modellen patronen herkennen in enorme datasets, relaties blootleggen en irrelevante informatie wegfilteren. Dat biedt forensisch onderzoekers aanzienlijke voordelen, maar roept tegelijkertijd vragen op over transparantie, herleidbaarheid en juridische toelaatbaarheid.

Hints, geen bewijs

LLM’s functioneren in de praktijk als een digitale speurneus: ze geven hints die een onderzoeker op een spoor kunnen zetten. Zo kan een model wijzen op een mogelijke betaling in bitcoins of zoekopdrachten naar crypto-communicatiekanalen. Belangrijk daarbij is dat een hint zelf geen bewijs vormt. De uiteindelijke waarde ligt uitsluitend in de sporen die de onderzoeker vervolgens zelfstandig terugvindt in de dataset. De vindplaats, motivatie en verificatie moeten vastgelegd worden in het forensisch rapport. Niet de herhaalbaarheid van de hint, maar de herleidbaarheid van de onderzoeksstappen staat centraal.

De discussie in de VS: Daubert

In de Verenigde Staten wordt het debat mede bepaald door de Daubert-standaard, die eist dat expertmethoden wetenschappelijk onderbouwd, toetsbaar en reproduceerbaar zijn. Omdat LLM-uitvoer niet deterministisch is en de interne werking niet transparant, kan een hint onder Daubert de vraag oproepen of het achterliggende model zelf ter beoordeling moet worden voorgelegd. Zeker wanneer de suggestie van het model wezenlijke invloed heeft gehad op het onderzoeksresultaat.

De Nederlandse context: geen Daubert, wél strikte kwaliteitseisen

Nederland kent geen Daubert-toets, maar stelt wel strenge eisen aan deskundigenbewijs. Transparantie, traceerbaarheid en reproduceerbaarheid vormen ook in ons systeem de kern. De eisen die voortvloeien uit onder meer artikel 51l Sv, NRGD-criteria en ISO-17025-normen gelden evenzeer voor digitale rechercheurs binnen de politie. Een LLM kan worden ingezet als inspiratiebron, zolang:

  • de onderzoeksmethode controleerbaar blijft;

  • de werkzaamheid van de tool wordt gelogd;

  • en het uiteindelijke bewijs onafhankelijk, reproduceerbaar en zonder AI-hulp in de dataset is terug te vinden.

LLM’s mogen dus wel richting geven, maar niet dragend zijn in de bewijsconstructie.

Praktijkervaring: de Robin-pilot

Het NFI voerde eind 2024 een pilot uit met een LLM-assistent in een gesloten overheidscloud. Deze “Robin” werd getest door zowel ondersteunende medewerkers als forensisch onderzoekers. Toepassingen varieerden van het samenvatten van proces-verbalen en annoteren van labjournaals tot het gestructureerd doorzoeken van grote tekstcollecties.

De ervaringen waren overwegend positief: de werkdruk daalde, de kwaliteit steeg en analyses verliepen sneller. De pilot laat zien dat LLM’s, mits zorgvuldig ingebed, daadwerkelijk toegevoegde waarde kunnen bieden in het forensisch proces.

Verantwoord gebruik: verslaglegging en ethiek

Zodra een LLM onderdeel wordt van het onderzoeksproces, moet nagedacht worden over verslaglegging. Niet iedere hint hoeft in het eindrapport te worden opgenomen, maar het gebruik van het model moet wel reconstrueerbaar zijn — bijvoorbeeld via werkaantekeningen, audit trails of toepassing van het Model Context Protocol. Essentieel is dat helder blijft hoe bewijs uiteindelijk is vastgesteld, met welke tools en met welke instellingen.

Het bewijs ligt immers in het artefact, niet in de suggestie van het model.

Richtlijnen: zes principes voor veilig gebruik

Gebruik van LLM’s in forensisch onderzoek moet voldoen aan de EU AI Act. De auteurs formuleren daarom zes kernrichtlijnen:

  1. Gebruik LLM’s alleen ter ondersteuning, niet als primaire bewijsbron.

  2. Valideer elk spoor dat door het model wordt aangedragen met reguliere forensische methoden.

  3. Leg gebruik vast, zoals prompts, modelversie, parameters en tijdstippen.

  4. Bij RAG: laat bronnen automatisch meeleveren ter bevordering van traceerbaarheid.

  5. Rapporteer uitsluitend verifieerbare bevindingen, en noem AI alleen wanneer relevant voor de interpretatie.

  6. Ga zorgvuldig om met ‘not found’: de afwezigheid van een hit kan probatieve waarde hebben, maar vereist gedegen inzicht in dekking en foutmarges.

In deze benadering blijft AI een hulpmiddel, en de deskundige eindverantwoordelijk.

Europese AI Act

De AI Act geldt voor zowel marktpartijen als Nederlandse overheidsorganisaties. Artikel 4 verplicht tot AI-geletterdheid, en sommige toepassingen kunnen als “hoog-risico” worden aangemerkt. In dat geval gelden aanvullende eisen, waaronder menselijke toezichtbaarheid en alertheid voor automatische afhankelijkheid van modeluitvoer. Forensische onderzoekers moeten daarom niet alleen technisch vaardig zijn, maar ook bewust blijven van de mogelijke beperkingen van AI-systemen.

Conclusie

LLM’s zijn geen orakels, maar krachtige instrumenten. De juridische toets in Nederland richt zich niet op het model, maar op de kwaliteit van het onderzoeksproces. Zolang de deskundige onafhankelijk en controleerbaar het bewijs vaststelt, kan een LLM als “copilot” waardevol zijn. Dat vergt wel discipline in logging, transparantie en professionele training.

Deze ontwikkeling past naadloos bij het EAFS-motto Looking back to look forward. Door duidelijk te blijven over wat de rechtsstaat verlangt, kan het forensisch onderzoek verantwoord profiteren van nieuwe technologie.

Print Friendly and PDF ^