We eva­lu­eer­den 40+ juri­di­sche AI-tools: dit zijn onze bevin­din­gen

Blog

Published 24 september 2025 Reading time min Auteur Elgar Weijtmans Legal Tech

Van inven­ta­ri­sa­tie tot imple­men­ta­tie

Juris­ten die AI-tools wil­len inzet­ten, staan voor een las­ti­ge keu­ze: alleen al in Neder­land zijn er tien­tal­len aan­bie­ders van juri­di­sche AI’s. De ver­schil­len zijn groot, maar vaak slecht zicht­baar ach­ter de mar­ke­ting­be­lof­tes. Bij HVG Law heb­ben we daar­om een sys­te­ma­ti­sche aan­pak ont­wik­keld om onze keu­ze te maken.

HVG Law is een tech-ena­b­led advo­ca­ten­kan­toor. Toen Chat­G­PT (3.5) in novem­ber 2022 werd gelan­ceerd, zagen we direct de poten­tie voor de juri­di­sche prak­tijk. Tege­lij­ker­tijd zagen we ook dat de LLM’s nog niet rijp waren voor com­plexe juri­di­sche toe­pas­sin­gen, maar ver­wacht­ten wel dat de tech­no­lo­gie zich snel zou ont­wik­ke­len. Daar­om start­ten we met­een met het voor­be­rei­den van onze advo­ca­ten op deze nieu­we rea­li­teit.

In ander­half jaar tijd eva­lu­eer­den we meer dan veer­tig plat­forms, bouw­den we tien­tal­len pro­to­ty­pes en voer­den we hon­der­den tests uit. Dit lever­de belang­rij­ke inzich­ten op: we ont­dek­ten niet alleen waar­in LLM’s excel­le­ren, maar voor­al ook waar ze (nog) falen. Deze prak­tijk­ken­nis vorm­de de basis voor onze selec­tie.

In dit arti­kel deel ik onze belang­rijk­ste erva­rin­gen, zodat ande­re juris­ten hope­lijk niet hele­maal van­af nul hoe­ven te begin­nen. Daar­bij is van belang te ver­mel­den dat dit stuk voor­al ónze erva­ring bin­nen HVG Law beschrijft en hoe wij tot keu­zes zijn geko­men. Het is nadruk­ke­lijk géén uni­ver­se­le of weten­schap­pe­lij­ke metho­de, maar een prak­tijk­ge­rich­te moment­op­na­me van onze eigen afwe­gin­gen.

 

Metho­de: hoe we (juri­di­sche) AI-plat­forms eva­lu­eer­den

We zijn begon­nen met het opdoen van erva­ring door vlieg­uren te maken met een AI-plat­form voor niet-juri­di­sche taken, waar­na we zijn over­ge­gaan tot het eva­lu­e­ren van plat­forms spe­ci­fiek voor juri­di­sche onder­steu­ning. Onze eva­lu­a­tie bestond uit drie fasen:

  1. Een voor­se­lec­tie op basis van onze mini­mum­ei­sen;
  2. Een test­fa­se om de juri­di­sche pres­ta­ties te meten (door mid­del van een ben­ch­mark en pro­to­ty­pes); en
  3. Prak­tijk­pi­lots met de best pres­te­ren­de plat­forms.

 

Van gene­rie­ke chat­bot naar gespe­ci­a­li­seerd juri­disch plat­form

Vlieg­uren maken

Een van onze belang­rijk­ste inzich­ten is dat het in de start­fa­se van AI-gebruik eigen­lijk niet zo uit­maakt wel­ke AI je gebruikt (zolang die maar vei­lig is). Denk bij­voor­beeld aan (een vei­li­ge ver­sie van) Clau­de, de Chat­G­PT-con­cur­rent die het over het alge­meen beter doet met juri­di­sche tek­sten. De sleu­tel is om over de eer­ste drem­pel te komen en er gewoon mee te star­ten.

Wij kozen aan­van­ke­lijk voor Ope­nAI (de ont­wik­ke­laar van Chat­G­PT). Ander­half jaar lang lie­ten we onze advo­ca­ten in een bevei­lig­de omge­ving vlieg­uren maken met low-risk AI-gebruik. Met name in de “peri­fe­rie” van hun werk, zoals het ver­be­te­ren van e-mails en het samen­vat­ten of ver­ta­len van tek­sten.

Na de eer­ste vlieg­uren waren we klaar voor de vol­gen­de stap: AI inzet­ten voor het ech­te juri­di­sche werk.

Wat moest AI voor ons kun­nen doen?

Ver­schil­len­de juri­di­sche plat­forms heb­ben ver­schil­len­de spe­ci­a­lis­men. Wij focus­ten spe­ci­fiek op het onder­steu­nen van juri­disch onder­zoek (het ana­ly­se­ren van rechts­vra­gen op basis van juris­pru­den­tie en wet­ge­ving) met AI. In de prak­tijk merk­ten we dat advo­ca­ten een AI door­gaans pas seri­eus namen wan­neer deze hen kon assis­te­ren bij ech­te juri­di­sche vraag­stuk­ken. Boven­dien zijn bij juri­disch onder­zoek de ver­schil­len tus­sen de plat­forms het grootst. Bij­na alle tools kun­nen een tem­pla­te vul­len of een e-mail her­schrij­ven, maar het inter­pre­te­ren van juris­pru­den­tie en het com­bi­ne­ren van ver­schil­len­de rechts­bron­nen tot een cohe­rent advies ver­eist ech­te juri­di­sche intel­li­gen­tie.

Maar wel­ke tool is daar­voor het bes­te?

Een ono­ver­zich­te­lij­ke markt

Die vraag is niet zo mak­ke­lijk te beant­woor­den, want er zijn tien­tal­len aan­bie­ders. Er zijn een paar echt ster­ke par­tij­en, maar we moesten goed zoe­ken om die te vin­den. Opval­lend is dat een ster­ke mar­ke­ting niet altijd cor­re­leert met de bes­te tech­ni­sche pres­ta­ties.

Om een wel­over­wo­gen keu­ze te maken, eva­lu­eer­den we alle rele­van­te tools uit de markt: van gene­rie­ke model­len (zoals Chat­G­PT, Clau­de en Per­plexi­ty) tot gespe­ci­a­li­seer­de juri­di­sche plat­forms. We over­wo­gen meer dan veer­tig plat­forms en keken onder meer naar het team, de onder­lig­gen­de tech­no­lo­gie, gebruiks­vrien­de­lijk­heid, func­ti­o­na­li­tei­ten, vei­lig­heid en ont­wik­kel­snel­heid.

 

Voor­se­lec­tie: secu­ri­ty first

Voor­dat we ben­ch­mark­ten, maak­ten we een voor­se­lec­tie om te kij­ken of tools wel aan onze mini­mum­ei­sen vol­de­den. Er zijn in de markt ver­ras­send veel par­tij­en die (nog) niet com­pli­ant zijn met de gebrui­ke­lij­ke stan­daar­den zoals ISO 27001 of SOC 2 Type 2, of die het doen lij­ken als­of ze com­pli­ant zijn maar dat bij nader inzien niet blij­ken te zijn. Ons tech-team beoor­deel­de daar­om alle par­tij­en eerst op ver­schil­len­de (beveiligings)criteria, zoals cer­ti­fi­ce­rin­gen, hos­ting­lo­ca­tie en encryp­tie.

 

Test­fa­se: eva­lu­a­tie­cri­te­ria en tech­ni­sche ach­ter­grond

Ben­ch­mark

Voor LLM’s bestaan er al ver­schil­len­de ben­ch­marks (zoals ARC-AGI en MMLU), maar voor spe­ci­fie­ke juri­di­sche toe­pas­sin­gen was er nog wei­nig beschik­baar. Inmid­dels zijn er geluk­kig meer ini­ti­a­tie­ven, zoals Legalbenchmarks.ai, maar des­tijds moesten we onze eigen aan­pak ont­wik­ke­len.

We beoor­deel­den elke AI-out­put op zes hoofd­cri­te­ria:

  1. Juist­heid van de juri­di­sche rede­na­tie en con­clu­sie;
  2. Vol­le­dig­heid van het ant­woord;
  3. Kwa­li­teit van bron­ver­mel­ding en refe­ren­ties;
  4. Logi­sche struc­tuur en schrijf­stijl;
  5. Aan­we­zig­heid van rele­van­te juris­pru­den­tie en wets­ar­ti­ke­len; en
  6. Afwe­zig­heid van hal­lu­ci­na­ties (ver­zon­nen infor­ma­tie).

Daar­voor ont­wik­kel­den we een eva­lu­a­tie­ma­trix met ben­ch­mark­vra­gen, beoor­de­lings­cri­te­ria en mode­lant­woor­den. Dit werkt ver­ge­lijk­baar met het opstel­len en nakij­ken van ten­ta­men­vra­gen: je defi­ni­eert voor­af wel­ke ant­woor­den je wilt zien en je scoort ver­vol­gens op spe­ci­fie­ke ele­men­ten. We wil­den bij­voor­beeld rele­van­te stan­daard­ar­res­ten zien, een juis­te juri­di­sche opbouw en con­clu­sie, en cor­rec­te bron­ver­wij­zin­gen.

Met ver­schil­len­de prompts test­ten we ver­schil­len­de con­cep­ten, zoals:

  • Recht­spraak en hië­rar­chie: “Wat is het meest recen­te stan­daard­ar­rest over bestuur­ders­aan­spra­ke­lijk­heid en wel­ke lage­re recht­spraak is daar­op geba­seerd?”
  • Spe­ci­fie­ke regel­ge­ving: “Heb je in Neder­land een ver­gun­ning nodig voor het han­de­len in kool­wa­ter­stof­fen en bio­brand­stof­fen?”
  • Com­plexe edge cases: “Mag je een roe­rend goed ver­pan­den als het kwa­li­fi­ceert als een dual-use good?”

Om betrouw­baar­heid te waar­bor­gen kozen we bewust voor men­se­lij­ke beoor­de­ling in plaats van beoor­de­ling door een (ande­re) AI, omdat dit model- en prompt-bias kan intro­du­ce­ren. Alle refe­ren­ties her­leid­den we naar de oor­spron­ke­lij­ke bron om te con­tro­le­ren op hal­lu­ci­na­ties.

We ben­ch­mark­ten eerst de ‘gewo­ne’ LLM’s (zoals Chat­G­PT en Clau­de) als base­li­ne. Deze AI’s zijn ver­ras­send goed in alge­meen beken­de leer­stuk­ken (die in hun trai­nings­da­ta zit­ten), maar sco­ren slecht bij spe­ci­fie­ke, meer obscu­re vra­gen (waar juris­ten door­gaans juist het meest in geïn­te­res­seerd zijn). Voor die vra­gen heeft een LLM toe­gang nodig tot rechts­bron­nen én moet hij deze op de juis­te manier inter­pre­te­ren. In onze tests op Neder­land­se juri­di­sche vraag­stuk­ken scoor­de Clau­de gemid­deld iets beter dan Chat­G­PT.

Ide­aal zou zijn als uit­ge­vers zoals Wolters Kluwer en Lefebvre Sdu hun bron­nen open zou­den stel­len aan AI-leve­ran­ciers. Maar er zijn helaas con­flic­te­ren­de com­mer­ci­ë­le belan­gen: zij ont­wik­ke­len ook hun eigen AI-tools. Uit­ge­vers beschik­ken door­gaans over zeer ster­ke data­bron­nen, ter­wijl (legal-)techpartijen vaak uit­blin­ken in ont­wik­kel­snel­heid en inno­va­tie. Het span­nings­veld zit in het com­bi­ne­ren van bei­de.

De mees­te legal AI-plat­forms pro­be­ren hier­om­heen te wer­ken door op basis van open­ba­re data (recht­spraak en wet­tek­sten) toch inhou­de­lijk goede ant­woor­den te geven. Dat is las­ti­ger dan het lijkt: zelfs met al die data moet je er een struc­tuur in aan­bren­gen die bruik­baar is voor AI.

Onze pro­to­ty­pes

We gin­gen ver­der dan alleen eva­lu­e­ren: we bouw­den tien­tal­len pro­to­ty­pes (zelf­ge­bouw­de AI-tools) om de onder­lig­gen­de tech­no­lo­gie écht te door­gron­den. We stuit­ten steeds op het­zelf­de pro­bleem: deze pro­to­ty­pes mis­ten juri­di­sche struc­tu­ren. Ze von­den wel rele­van­te pas­sa­ges, maar begre­pen niet hoe rechts­bron­nen zich tot elkaar ver­hou­den. De Hoge Raad kan bij­voor­beeld in een later arrest zijn omge­gaan, of een wets­be­pa­ling kan impli­ciet ver­bon­den zijn aan juris­pru­den­tie uit een heel ander rechts­ge­bied.

Slechts één aan­pak lever­de sig­ni­fi­can­te ver­be­te­rin­gen op: het gebruik van een zoge­naam­de know­led­ge graph. In onze ben­ch­mark scoor­de dit pro­to­ty­pe aan­mer­ke­lijk hoger op juist­heid, samen­hang en bron­ver­mel­ding. Boven­dien hal­lu­ci­neer­de het min­der.

Een know­led­ge graph is een net­werk waar­bij juri­di­sche begrip­pen en hun onder­lin­ge ver­ban­den sys­te­ma­tisch in kaart zijn gebracht. In plaats van docu­men­ten te zoe­ken op basis van tref­woor­den of seman­ti­sche ver­want­schap, zijn de rela­ties tus­sen wet­ten, arti­ke­len en arres­ten expli­ciet vast­ge­legd in een net­werk­struc­tuur.

Het sys­teem ‘weet’ bij­voor­beeld niet alleen dat arti­kel 6:162 BW over onrecht­ma­ti­ge daad gaat, maar ook wel­ke spe­ci­fie­ke arres­ten dit arti­kel heb­ben uit­ge­werkt, hoe het samen­hangt met ver­wan­te wets­ar­ti­ke­len, en wel­ke juri­di­sche prin­ci­pes eruit voort­vloei­en. Deze gestruc­tu­reer­de aan­pak gaat ver­der dan het vin­den van the­ma­tisch ver­wan­te tek­sten. Door­dat alle juri­di­sche kennis als een samen­han­gend net­werk van expli­cie­te rela­ties is geor­ga­ni­seerd, kan het sys­teem pre­cie­ze­re ant­woor­den geven op com­plexe juri­di­sche vra­gen die bij tra­di­ti­o­ne­le zoek­me­tho­den ver­bor­gen zou­den blij­ven.

Deze tech­ni­sche inzich­ten wer­den beves­tigd door onze ben­ch­mar­kre­sul­ta­ten: het plat­form dat gebruik maakt van een know­led­ge graph pro­du­ceer­de con­sis­tent bete­re juri­di­sche rede­ne­rin­gen dan ande­re RAG-sys­te­men (retrie­val-aug­men­ted gene­ra­ti­on).

Reflec­tie op de test­fa­se: waar­om tech­no­lo­gie het ver­schil maakt

Er zijn dus gro­te pres­ta­tie­ver­schil­len tus­sen juri­di­sche AI-oplos­sin­gen die voort­ko­men uit de onder­lig­gen­de archi­tec­tuur. We zagen ruw­weg deze vier:

  1. GPT’s: Aan het begin van die schaal staan de zoge­he­ten GPT’s, gene­rie­ke model­len zoals Chat­G­PT met eigen prompts en wat con­text. Ze zijn ide­aal om snel aan de slag te gaan met laa­g­ri­si­co­ta­ken (denk aan het ver­be­te­ren van e-mails, maken van samen­vat­tin­gen en ver­ta­lin­gen of het wer­ken met tem­pla­tes). Het gro­te nadeel: ze mis­sen door­gaans toe­gang tot rechts­bron­nen. Bij juri­disch onder­zoek is daar­door de kans op hal­lu­ci­na­ties groot.
  2. Naïe­ve RAG: De vol­gen­de stap is een basis-RAG. Hier­mee wor­den (juri­di­sche) docu­men­ten geëm­bed en pas­sa­ges (ach­ter de scher­men) aan de prompt toe­ge­voegd. Voor een­vou­di­ge inter­ne docu­men­ten (zoals over­een­kom­sten) werkt dit aar­dig. Toch blijft het gevoel bestaan van een pas­sa­ge-lote­rij: het sys­teem vindt wel stuk­jes tekst, maar begrijpt onvol­doen­de hoe bron­nen onder­ling samen­han­gen. Bron­ver­wij­zin­gen blij­ven vaak opper­vlak­kig.
  3. Gea­van­ceer­de RAG: Een gea­van­ceer­de RAG pro­beert dat te ver­be­te­ren met bete­re retrie­val (bij­voor­beeld door een com­bi­na­tie van ver­schil­len­de zoek­me­tho­den), vaak gecom­bi­neerd met een reran­ker. Ook deze aan­pak heeft ech­ter beper­kin­gen: de logi­ca blijft docu­ment- en pas­sa­ge-gedre­ven, ter­wijl juri­di­sche werk vaak vraagt om expli­ciet begrip van de struc­tu­ren.
  4. Mul­ti-agent work­flows met een know­led­ge graph: Deze work­flows ver­de­len taken (zoals zoe­ken, vali­de­ren en cite­ren) en een know­led­ge graph legt de rela­ties tus­sen wet­ten en juris­pru­den­tie. Dit is tech­nisch bedui­dend uit­da­gen­der, maar de ver­be­te­ring in con­sis­ten­tie en juri­di­sche betrouw­baar­heid is aan­zien­lijk.

Onze test­fa­se lever­de dub­bel inzicht op: niet alleen wel­ke plat­forms het bes­te pres­teer­den, maar voor­al ook waar­om.

 

Prak­tijk­pi­lots met de best pres­te­ren­de plat­forms

Onze ben­ch­mark geeft waar­de­vol­le inzich­ten, maar de ech­te test komt in de dage­lijk­se prak­tijk. Die is nu een­maal weer­bar­stig. Met de drie best pres­te­ren­de plat­forms deden we daar­om uit­ge­brei­de pilots. Gedu­ren­de mini­maal een maand gebruik­ten de advo­ca­ten uit onze AI Tas­kfor­ce deze tools dage­lijks. We beoor­deel­den niet alleen de juri­di­sche kwa­li­teit, maar ook prak­ti­sche aspec­ten, zoals de gebruiks­vrien­de­lijk­heid van de inter­fa­ce en de snel­heid van de ant­woor­den.

 

Onze keu­ze

De vraag is nu natuur­lijk welk plat­form als bes­te werd beoor­deeld. Daar kan ik kort over zijn: de Rot­ter­dam­se par­tij Zeno. Zij scoor­den het hoogst in zowel de ben­ch­mark als de pilot. Door­dat zij zich spe­ci­a­li­se­ren in juri­disch onder­zoek voor Neder­land­se advo­ca­ten en daar­voor de bes­te tech­niek gebrui­ken, lever­den ze de bes­te resul­ta­ten. De onder­lig­gen­de know­led­ge graph, geba­seerd op data van Recht.nl, bleek hier­voor een belang­rij­ke fac­tor. Onze advo­ca­ten waar­deer­den daar­naast ook de over­zich­te­lij­ke inter­fa­ce en de trans­pa­ran­tie: Zeno toont de juri­di­sche rede­ne­rin­gen en kop­pelt argu­men­ten direct aan spe­ci­fie­ke bron­nen.

 

Con­clu­sie

De onder­lig­gen­de tech­ni­sche archi­tec­tuur bepaalt direct de kwa­li­teit van de juri­di­sche rede­ne­rin­gen. Voor juri­disch onder­zoek pres­teer­de Zeno het bes­te in onze ben­ch­mark, maar elk kan­toor zal een eigen eva­lu­a­tie­ka­der moe­ten ont­wik­ke­len dat past bij de spe­ci­fie­ke prak­tijk en behoef­ten.

De markt ont­wik­kelt zich razend­snel; deze bevin­din­gen zijn daar­om een moment­op­na­me. Belang­rij­ker dan wel­ke tool wij kozen, is hoe we tot die keu­ze kwa­men: begin met de mini­mum­ei­sen, ont­wik­kel een beoor­de­lings­ka­der dat bij de dage­lijk­se prak­tijk past, en test uit­ge­breid. Dat is de eni­ge manier om weg­wijs te wor­den in de jun­gle van juri­di­sche AI-tools.


Trans­pa­ran­tie: HVG Law, en ikzelf per­soon­lijk, heb­ben geen finan­ci­ë­le belan­gen in de geë­va­lu­eer­de plat­forms. We beta­len als klant voor de dien­sten van Zeno.