Waarom agentisch redeneren de enige weg is naar productie juridische AI

Kernthese: Als je geen agentisch systeem bouwt (een loop van planning, toolgebruik, redeneren en documentgeneratie verankerd in een specifieke zaak), dan bouw je geen productie juridische AI. Je bouwt autocomplete met een juridisch sausje.

Wij opereren in het VK en Nederland. Dat heeft ons een keiharde feedbackloop gegeven over wat daadwerkelijk werkt.

Wat werkt

1. Zaak-first ontwerp

Op Andri is 95%+ van de queries verankerd in documenten van een daadwerkelijke zaak. Minder dan 5% gebeurt zonder zaakspecifieke context.

Advocaten vragen niet "Wat zegt het contractenrecht over wanprestatie?" Ze vragen: "Mijn cliënt heeft deze SaaS-overeenkomst ondertekend met deze aansprakelijkheidsclausules. Het systeem is drie dagen uitgevallen. Gezien de e-mails en wijzigingslogboeken in dit dossier, wat is onze exposure?"

Generiek juridisch onderzoek is een feature. Zaakcentrisch redeneren is het product.

2. Multi-modale search als tools

Er is geen enkel "zoeken". Er is een gereedschapskist:

Lexicaal (BM25): Exacte termen, citaten, wetsartikelen: "6:162 BW", "CPR 3.9"
Semantisch: Concepten zonder gedeeld vocabulaire: "zorgplicht van IT-leveranciers"
Graaf-traversal: "Wat heeft deze uitspraak beperkt of bekritiseerd?"
Metadata filters: Rechtbank, jaar, jurisdictie, uitkomst
Regex: Specifieke clausules, bedragen, data uit contracten

De sleutel: stel deze bloot als tools waar de agent uit kiest, niet de gebruiker. Een verstandige agent zou lexicaal zoeken gebruiken voor CRA 2015 secties, semantisch zoeken voor vergelijkbare zaken, metadata filters voor post-2020 Engeland & Wales uitspraken, dan citaatgrafen om vervolgbehandeling te checken.

3. Agentische loops, geen single-shot calls

De meeste juridische AI: invoer tekst → LLM → uitvoer tekst. Eén forward pass.

Een agentisch systeem is anders. Het model controleert een loop die kan denken, handelen, observeren, en opnieuw denken:

def legal_agent(case_context, question):
    plan = llm.plan(case_context, question)

    while not plan.is_satisfied():
        tool_call = plan.next_tool_call()
        result = call_tool(tool_call)
        plan = llm.update_plan(plan, result)

    reasoning = llm.synthesise(case_context, question, plan.evidence)
    checked = llm.verify(reasoning, plan.evidence)
    return render_documents(checked, case_context)

Het systeem ontleedt vragen in deeltaken, kiest tools op basis van tussenresultaten, itereert, verandert van gedachten, en eindigt met documenten, geen chatbubbels.

4. Progressieve onthulling

Kijk hoe een ervaren advocaat werkt: dossier scannen, geschilpunten identificeren, ankerprecedenten pakken, vervolggeschiedenis checken, feitenpatronen vergelijken, tegenargumenten verkennen, concepten, itereren.

Dit is boomsgewijs zoeken door de juridische ruimte. Je expandeert niet de hele boom; je kiest takken dynamisch naarmate je leert.

Agentische systemen matchen dit. Begin breed ("wat zijn de relevante issues?"), vernauw naar doctrines, boor in op specifieke uitspraken, loop tussen zaakdocumenten en extern recht totdat het antwoord stabiliseert.

5. Denktijd als resource

Niet-agentische systemen kiezen impliciet snelheid en lage kosten, wat lagere nauwkeurigheid betekent. Eén brede, dure run door een groot model.

Agentische systemen ruilen breedte in voor diepte: veel smallere runs, verweven met deterministische tools, met het vermogen deliberatie te budgetteren: "snel en ruw" vs "langzamer maar diep", afhankelijk van wat er op het spel staat.

Naarmate basismodellen verbeteren, krijgen agentische systemen samengestelde winsten in planning, toolselectie, redenering en verificatie. De kloof wordt groter.

6. Productie-native outputs

Een productiesysteem geeft je niet "het antwoord". Het geeft je het eindproduct: het opgestelde Verweer met genummerde paragrafen en jouw kantooropmaak; de geredigeerde SaaS-overeenkomst met tracked changes; het cliëntadvies met executive summary en risico-inschatting.

De test: "Als de AI zijn werk perfect doet, hoeveel werk moet de advocaat nog doen?"

Adviessysteem: "Het memo, e-mail, contract opstellen. 1-2 uur."
Productiesysteem: "Reviewen, 2-3 paragrafen tweaken, goedkeuren. 10-15 minuten."

Wat niet werkt

1. Semantisch zoeken als "het hele product"

"We embedden alle jurisprudentie. We draaien semantisch zoeken. We voeren top-k chunks in een LLM. Klaar."

Dit heeft geen concept van zaakcontext, geen meerstappenplan, geen manier om te weten of het ver genoeg heeft gekeken, geen vermogen om te beslissen "dit is lastig, ga dieper". Het is autocomplete met een iets betere index.

2. Kennisgrafen als "het platform"

"We hebben recht gestructureerd in een kennisgraaf. Bevraag de graaf; de graaf is je juridische brein."

Als tool, prima. Als architectuur mist het dat juridisch redeneren contextueel is. Valt het gedrag van deze cliënt binnen die toets? Vormt deze e-mailketen aanvaarding? De kennisgraaf kent abstracte relaties. Hij kent deze zaak niet.

Erger: het recht verandert dagelijks. De graaf fris houden wordt een onderhoudsproject. Wie het schema definieert hard-codet zijn interpretatie van juridische relaties. Maar die interpretatie is precies wat je dynamisch wilt doen op querytijd, met toegang tot zaakcontext.

Kennisgraaf = één tool van velen. Als het je platform is, heb je redenering in een statische structuur gebakken die niet snel genoeg kan aanpassen.

3. Adviestools die stoppen bij "hier is je antwoord"

Wanneer een advocaat een goed antwoord krijgt, moet hij nog steeds het memo opstellen, de cliënt-e-mail schrijven, het pleitschrift voorbereiden, het contract redigeren. De AI gaf intelligentie. Hij deed nog steeds 70% van het werk.

Dit is de verkeerde productcategorie.

4. Enkele zoekmodaliteit

Mensen met een achtergrond in zoektechnologie bouwen semantische systemen en verklaren BM25 "legacy". Graafenthousiasten bouwen alles rond kennisgrafen. Traditionele legaltech blijft in keywordland met een mooiere UI.

Ze zitten er allemaal naast. Je hebt alle modaliteiten nodig als tools waar de agent uit kiest.

Waar verdedigbaarheid accumuleert

Als je platform semantisch zoeken over publieke jurisprudentie is, of RAG mooi verpakt, of een statische kennisgraaf met chatwrapper: je slotgracht is dun. Embeddings zijn een commodity. Vectordatabases zijn een commodity. Juridische teksten zijn publiek. Een capabel team repliceert je in maanden.

Adviestools hebben zwakke lock-in: intermitterend gebruik, makkelijk switchen, werkproduct leeft toch in Word.

Productiesystemen hebben structurele lock-in: templates aangepast aan het kantoor, zaakdossiers native aan het platform, hele conceptworkflow loopt erdoorheen.

De echte verdedigbaarheid:

Toolbreedte: Meerdere zoekstrategieën, jurisdictie-bewuste indexering, parsers die tegen echte documenten kunnen, DMS/e-mail/SharePoint-integraties
Redeneringsbeleid: Hoe je vragen ontleedt, wanneer te escaleren, hoe bronconflicten aan te pakken
Contextafhandeling: Zaken als first-class objecten, persistente context, multi-jurisdictie workflows
Documentpipeline: Templates die matchen hoe advocaten daadwerkelijk opstellen, outputs klaar om in te dienen

Deze stapelen zich op. Elke nieuwe tool maakt de agent slimmer. Elke redeneringsverbetering maakt elke tool waardevoller. Zodra de zaken en processen van een team zijn ingebed, switchen ze niet voor "iets betere semantische search".

Minimale lat voor serieuze juridische AI

Zaak-first ontwerp. Elke interactie verankerd aan een zaak met documenten.
Meerstappen agent loop. Planning, toolaanroepen, reflectie, verificatie.
Meervoudig zoeken. BM25, semantisch, graaf, metadata, regex, allemaal als tools.
Progressieve onthulling. Grof-naar-fijn onderzoek ingebakken.
Productie-native outputs. Word, PDF, Excel als first-class outputs met templates.
Denktijd als resource. Controleerbaar deliberatiebudget.

Als de meeste hiervan ontbreken, is het probleem niet dat je "vroeg" bent. Je optimaliseert het verkeerde.

Afsluiting

De meeste juridische AI is autocomplete met betere marketing. Het oogt goed in een demo. Het beantwoordt makkelijke vragen.

Juridisch werk is rommelig, adversarieel en zwaar contextueel. Het eindigt in ingediende documenten en echte beslissingen, niet chattranscripten.

Agentische systemen, met diverse tools, diepe zaakcontext, weloverwogen redenering en echte documentgeneratie, zijn de enige architectuur die bij die realiteit past.

De gebruiksdata is binnen: ~95% van het werk is zaakspecifiek. Wanneer advocaten een compleet concept krijgen dat ze kunnen verfijnen in plaats van een antwoord dat ze moeten herschrijven, gaat engagement 4-5x omhoog.

Advocaten hebben de markt verteld wat ze nodig hebben. De vraag is of de mensen die "juridische AI-platforms" bouwen luisteren.

Wij bouwen Andri op deze principes. Zie het zelf.

Lees ook: hoe personalisatie, tools en geheugen de driehoek vormen, waarom we Andri bouwden om langzaam te denken, en hoe dit er in de praktijk uitziet bij Blokziel. Of lees wat agentische AI precies is en waarom de meeste tools het niet zijn.