Blog
Van inventarisatie tot implementatie
Juristen die AI-tools willen inzetten, staan voor een lastige keuze: alleen al in Nederland zijn er tientallen aanbieders van juridische AI’s. De verschillen zijn groot, maar vaak slecht zichtbaar achter de marketingbeloftes. Bij HVG Law hebben we daarom een systematische aanpak ontwikkeld om onze keuze te maken.
HVG Law is een tech-enabled advocatenkantoor. Toen ChatGPT (3.5) in november 2022 werd gelanceerd, zagen we direct de potentie voor de juridische praktijk. Tegelijkertijd zagen we ook dat de LLM’s nog niet rijp waren voor complexe juridische toepassingen, maar verwachtten wel dat de technologie zich snel zou ontwikkelen. Daarom startten we meteen met het voorbereiden van onze advocaten op deze nieuwe realiteit.
In anderhalf jaar tijd evalueerden we meer dan veertig platforms, bouwden we tientallen prototypes en voerden we honderden tests uit. Dit leverde belangrijke inzichten op: we ontdekten niet alleen waarin LLM’s excelleren, maar vooral ook waar ze (nog) falen. Deze praktijkkennis vormde de basis voor onze selectie.
In dit artikel deel ik onze belangrijkste ervaringen, zodat andere juristen hopelijk niet helemaal vanaf nul hoeven te beginnen. Daarbij is van belang te vermelden dat dit stuk vooral ónze ervaring binnen HVG Law beschrijft en hoe wij tot keuzes zijn gekomen. Het is nadrukkelijk géén universele of wetenschappelijke methode, maar een praktijkgerichte momentopname van onze eigen afwegingen.
Methode: hoe we (juridische) AI-platforms evalueerden
We zijn begonnen met het opdoen van ervaring door vlieguren te maken met een AI-platform voor niet-juridische taken, waarna we zijn overgegaan tot het evalueren van platforms specifiek voor juridische ondersteuning. Onze evaluatie bestond uit drie fasen:
- Een voorselectie op basis van onze minimumeisen;
- Een testfase om de juridische prestaties te meten (door middel van een benchmark en prototypes); en
- Praktijkpilots met de best presterende platforms.
Van generieke chatbot naar gespecialiseerd juridisch platform
Vlieguren maken
Een van onze belangrijkste inzichten is dat het in de startfase van AI-gebruik eigenlijk niet zo uitmaakt welke AI je gebruikt (zolang die maar veilig is). Denk bijvoorbeeld aan (een veilige versie van) Claude, de ChatGPT-concurrent die het over het algemeen beter doet met juridische teksten. De sleutel is om over de eerste drempel te komen en er gewoon mee te starten.
Wij kozen aanvankelijk voor OpenAI (de ontwikkelaar van ChatGPT). Anderhalf jaar lang lieten we onze advocaten in een beveiligde omgeving vlieguren maken met low-risk AI-gebruik. Met name in de “periferie” van hun werk, zoals het verbeteren van e-mails en het samenvatten of vertalen van teksten.
Na de eerste vlieguren waren we klaar voor de volgende stap: AI inzetten voor het echte juridische werk.
Wat moest AI voor ons kunnen doen?
Verschillende juridische platforms hebben verschillende specialismen. Wij focusten specifiek op het ondersteunen van juridisch onderzoek (het analyseren van rechtsvragen op basis van jurisprudentie en wetgeving) met AI. In de praktijk merkten we dat advocaten een AI doorgaans pas serieus namen wanneer deze hen kon assisteren bij echte juridische vraagstukken. Bovendien zijn bij juridisch onderzoek de verschillen tussen de platforms het grootst. Bijna alle tools kunnen een template vullen of een e-mail herschrijven, maar het interpreteren van jurisprudentie en het combineren van verschillende rechtsbronnen tot een coherent advies vereist echte juridische intelligentie.
Maar welke tool is daarvoor het beste?
Een onoverzichtelijke markt
Die vraag is niet zo makkelijk te beantwoorden, want er zijn tientallen aanbieders. Er zijn een paar echt sterke partijen, maar we moesten goed zoeken om die te vinden. Opvallend is dat een sterke marketing niet altijd correleert met de beste technische prestaties.
Om een weloverwogen keuze te maken, evalueerden we alle relevante tools uit de markt: van generieke modellen (zoals ChatGPT, Claude en Perplexity) tot gespecialiseerde juridische platforms. We overwogen meer dan veertig platforms en keken onder meer naar het team, de onderliggende technologie, gebruiksvriendelijkheid, functionaliteiten, veiligheid en ontwikkelsnelheid.
Voorselectie: security first
Voordat we benchmarkten, maakten we een voorselectie om te kijken of tools wel aan onze minimumeisen voldeden. Er zijn in de markt verrassend veel partijen die (nog) niet compliant zijn met de gebruikelijke standaarden zoals ISO 27001 of SOC 2 Type 2, of die het doen lijken alsof ze compliant zijn maar dat bij nader inzien niet blijken te zijn. Ons tech-team beoordeelde daarom alle partijen eerst op verschillende (beveiligings)criteria, zoals certificeringen, hostinglocatie en encryptie.
Testfase: evaluatiecriteria en technische achtergrond
Benchmark
Voor LLM’s bestaan er al verschillende benchmarks (zoals ARC-AGI en MMLU), maar voor specifieke juridische toepassingen was er nog weinig beschikbaar. Inmiddels zijn er gelukkig meer initiatieven, zoals Legalbenchmarks.ai, maar destijds moesten we onze eigen aanpak ontwikkelen.
We beoordeelden elke AI-output op zes hoofdcriteria:
- Juistheid van de juridische redenatie en conclusie;
- Volledigheid van het antwoord;
- Kwaliteit van bronvermelding en referenties;
- Logische structuur en schrijfstijl;
- Aanwezigheid van relevante jurisprudentie en wetsartikelen; en
- Afwezigheid van hallucinaties (verzonnen informatie).
Daarvoor ontwikkelden we een evaluatiematrix met benchmarkvragen, beoordelingscriteria en modelantwoorden. Dit werkt vergelijkbaar met het opstellen en nakijken van tentamenvragen: je definieert vooraf welke antwoorden je wilt zien en je scoort vervolgens op specifieke elementen. We wilden bijvoorbeeld relevante standaardarresten zien, een juiste juridische opbouw en conclusie, en correcte bronverwijzingen.
Met verschillende prompts testten we verschillende concepten, zoals:
- Rechtspraak en hiërarchie: “Wat is het meest recente standaardarrest over bestuurdersaansprakelijkheid en welke lagere rechtspraak is daarop gebaseerd?”
- Specifieke regelgeving: “Heb je in Nederland een vergunning nodig voor het handelen in koolwaterstoffen en biobrandstoffen?”
- Complexe edge cases: “Mag je een roerend goed verpanden als het kwalificeert als een dual-use good?”
Om betrouwbaarheid te waarborgen kozen we bewust voor menselijke beoordeling in plaats van beoordeling door een (andere) AI, omdat dit model- en prompt-bias kan introduceren. Alle referenties herleidden we naar de oorspronkelijke bron om te controleren op hallucinaties.
We benchmarkten eerst de ‘gewone’ LLM’s (zoals ChatGPT en Claude) als baseline. Deze AI’s zijn verrassend goed in algemeen bekende leerstukken (die in hun trainingsdata zitten), maar scoren slecht bij specifieke, meer obscure vragen (waar juristen doorgaans juist het meest in geïnteresseerd zijn). Voor die vragen heeft een LLM toegang nodig tot rechtsbronnen én moet hij deze op de juiste manier interpreteren. In onze tests op Nederlandse juridische vraagstukken scoorde Claude gemiddeld iets beter dan ChatGPT.
Ideaal zou zijn als uitgevers zoals Wolters Kluwer en Lefebvre Sdu hun bronnen open zouden stellen aan AI-leveranciers. Maar er zijn helaas conflicterende commerciële belangen: zij ontwikkelen ook hun eigen AI-tools. Uitgevers beschikken doorgaans over zeer sterke databronnen, terwijl (legal-)techpartijen vaak uitblinken in ontwikkelsnelheid en innovatie. Het spanningsveld zit in het combineren van beide.
De meeste legal AI-platforms proberen hieromheen te werken door op basis van openbare data (rechtspraak en wetteksten) toch inhoudelijk goede antwoorden te geven. Dat is lastiger dan het lijkt: zelfs met al die data moet je er een structuur in aanbrengen die bruikbaar is voor AI.
Onze prototypes
We gingen verder dan alleen evalueren: we bouwden tientallen prototypes (zelfgebouwde AI-tools) om de onderliggende technologie écht te doorgronden. We stuitten steeds op hetzelfde probleem: deze prototypes misten juridische structuren. Ze vonden wel relevante passages, maar begrepen niet hoe rechtsbronnen zich tot elkaar verhouden. De Hoge Raad kan bijvoorbeeld in een later arrest zijn omgegaan, of een wetsbepaling kan impliciet verbonden zijn aan jurisprudentie uit een heel ander rechtsgebied.
Slechts één aanpak leverde significante verbeteringen op: het gebruik van een zogenaamde knowledge graph. In onze benchmark scoorde dit prototype aanmerkelijk hoger op juistheid, samenhang en bronvermelding. Bovendien hallucineerde het minder.
Een knowledge graph is een netwerk waarbij juridische begrippen en hun onderlinge verbanden systematisch in kaart zijn gebracht. In plaats van documenten te zoeken op basis van trefwoorden of semantische verwantschap, zijn de relaties tussen wetten, artikelen en arresten expliciet vastgelegd in een netwerkstructuur.
Het systeem ‘weet’ bijvoorbeeld niet alleen dat artikel 6:162 BW over onrechtmatige daad gaat, maar ook welke specifieke arresten dit artikel hebben uitgewerkt, hoe het samenhangt met verwante wetsartikelen, en welke juridische principes eruit voortvloeien. Deze gestructureerde aanpak gaat verder dan het vinden van thematisch verwante teksten. Doordat alle juridische kennis als een samenhangend netwerk van expliciete relaties is georganiseerd, kan het systeem preciezere antwoorden geven op complexe juridische vragen die bij traditionele zoekmethoden verborgen zouden blijven.
Deze technische inzichten werden bevestigd door onze benchmarkresultaten: het platform dat gebruik maakt van een knowledge graph produceerde consistent betere juridische redeneringen dan andere RAG-systemen (retrieval-augmented generation).
Reflectie op de testfase: waarom technologie het verschil maakt
Er zijn dus grote prestatieverschillen tussen juridische AI-oplossingen die voortkomen uit de onderliggende architectuur. We zagen ruwweg deze vier:
- GPT’s: Aan het begin van die schaal staan de zogeheten GPT’s, generieke modellen zoals ChatGPT met eigen prompts en wat context. Ze zijn ideaal om snel aan de slag te gaan met laagrisicotaken (denk aan het verbeteren van e-mails, maken van samenvattingen en vertalingen of het werken met templates). Het grote nadeel: ze missen doorgaans toegang tot rechtsbronnen. Bij juridisch onderzoek is daardoor de kans op hallucinaties groot.
- Naïeve RAG: De volgende stap is een basis-RAG. Hiermee worden (juridische) documenten geëmbed en passages (achter de schermen) aan de prompt toegevoegd. Voor eenvoudige interne documenten (zoals overeenkomsten) werkt dit aardig. Toch blijft het gevoel bestaan van een passage-loterij: het systeem vindt wel stukjes tekst, maar begrijpt onvoldoende hoe bronnen onderling samenhangen. Bronverwijzingen blijven vaak oppervlakkig.
- Geavanceerde RAG: Een geavanceerde RAG probeert dat te verbeteren met betere retrieval (bijvoorbeeld door een combinatie van verschillende zoekmethoden), vaak gecombineerd met een reranker. Ook deze aanpak heeft echter beperkingen: de logica blijft document- en passage-gedreven, terwijl juridische werk vaak vraagt om expliciet begrip van de structuren.
- Multi-agent workflows met een knowledge graph: Deze workflows verdelen taken (zoals zoeken, valideren en citeren) en een knowledge graph legt de relaties tussen wetten en jurisprudentie. Dit is technisch beduidend uitdagender, maar de verbetering in consistentie en juridische betrouwbaarheid is aanzienlijk.
Onze testfase leverde dubbel inzicht op: niet alleen welke platforms het beste presteerden, maar vooral ook waarom.
Praktijkpilots met de best presterende platforms
Onze benchmark geeft waardevolle inzichten, maar de echte test komt in de dagelijkse praktijk. Die is nu eenmaal weerbarstig. Met de drie best presterende platforms deden we daarom uitgebreide pilots. Gedurende minimaal een maand gebruikten de advocaten uit onze AI Taskforce deze tools dagelijks. We beoordeelden niet alleen de juridische kwaliteit, maar ook praktische aspecten, zoals de gebruiksvriendelijkheid van de interface en de snelheid van de antwoorden.
Onze keuze
De vraag is nu natuurlijk welk platform als beste werd beoordeeld. Daar kan ik kort over zijn: de Rotterdamse partij Zeno. Zij scoorden het hoogst in zowel de benchmark als de pilot. Doordat zij zich specialiseren in juridisch onderzoek voor Nederlandse advocaten en daarvoor de beste techniek gebruiken, leverden ze de beste resultaten. De onderliggende knowledge graph, gebaseerd op data van Recht.nl, bleek hiervoor een belangrijke factor. Onze advocaten waardeerden daarnaast ook de overzichtelijke interface en de transparantie: Zeno toont de juridische redeneringen en koppelt argumenten direct aan specifieke bronnen.
Conclusie
De onderliggende technische architectuur bepaalt direct de kwaliteit van de juridische redeneringen. Voor juridisch onderzoek presteerde Zeno het beste in onze benchmark, maar elk kantoor zal een eigen evaluatiekader moeten ontwikkelen dat past bij de specifieke praktijk en behoeften.
De markt ontwikkelt zich razendsnel; deze bevindingen zijn daarom een momentopname. Belangrijker dan welke tool wij kozen, is hoe we tot die keuze kwamen: begin met de minimumeisen, ontwikkel een beoordelingskader dat bij de dagelijkse praktijk past, en test uitgebreid. Dat is de enige manier om wegwijs te worden in de jungle van juridische AI-tools.
Transparantie: HVG Law, en ikzelf persoonlijk, hebben geen financiële belangen in de geëvalueerde platforms. We betalen als klant voor de diensten van Zeno.