Llama 4's 10M contextvenster: groter is niet altijd beter voor juridische AI

Meta heeft net Llama 4 uitgebracht, met een contextvenster van 10 miljoen tokens in de Scout-variant. Dat is 50x groter dan Claude's 200k. Je zou hele dossiers, misschien hele documentcollecties van kantoren, in één prompt kunnen stoppen.

Indrukwekkende techniek. Maar voor juridisch werk mist het de kern.

De "gooi alles erin" drogredenering

De voor de hand liggende use case: upload al je zaakdocumenten, stel een vraag, laat het model het uitzoeken. Alles in context. Geen retrieval nodig.

Dit is waarom dat niet goed werkt voor juridisch onderzoek:

Het "lost in the middle" probleem wordt erger, niet beter. Onderzoek toont consistent aan dat LLMs moeite hebben met het gebruiken van informatie in het midden van lange contexten. Een 10M token venster lost dit niet op—het versterkt het. Dat cruciale precedent begraven op pagina 847 van de context? Het model zal er misschien nooit goed aandacht aan besteden.

Niet alle documenten zijn even belangrijk. Een belangrijke uitspraak van het Hof zou meer invloed moeten hebben op het antwoord dan een routinematige procedurele beschikking. Alles in de context dumpen behandelt alle documenten als even belangrijk. Zo werkt juridisch redeneren niet.

Snelheid en kosten. 10 miljoen tokens verwerken is traag en duur. Als je cliënten factureert of efficiënt wilt werken, is het niet logisch om enorme contextvensters te verbranden voor simpele vragen.

Geen verificatie. Je weet nog steeds niet of het model de juiste bronnen gebruikt of dingen verzint. Grote context lost hallucinatie niet op—het maakt het misschien zelfs moeilijker om te vangen.

Wat wel werkt voor juridisch onderzoek

De betere aanpak is niet alles in de context stoppen—het is intelligent selecteren wat erin gaat:

Gerichte retrieval. Vind eerst de relevante documenten, redeneer dan erover. Een precedentzoekopdracht die de vijf meest toepasselijke uitspraken teruggeeft, levert betere resultaten dan een contextvenster met alles uit je documentbeheersysteem.

Dynamische weging. Sommige documenten zijn fundamenteel voor een zaak; andere zijn perifeer. Weeg ze dienovereenkomstig. Geef de baanbrekende uitspraak meer aandacht dan de e-mail die een vergadertijd bevestigt.

Meerstaps-redenering. Complexe juridische vragen moeten worden opgebroken. Vind de relevante wettelijke bepalingen. Vind dan hoe rechtbanken ze hebben geïnterpreteerd. Pas dan toe op de feiten. Elke stap kan gericht en geverifieerd zijn.

Bronverificatie bij elke stap. Als het systeem iets citeert, zou je het terug moeten kunnen leiden naar een autoritatieve bron. Dat is moeilijker als het model synthetiseert uit miljoenen tokens aan gemengde input.

Waar grote contextvensters wel helpen

Grote context is niet nutteloos. Het helpt bij:

Lange documentanalyse: Een contract van 200 pagina's in volledige context reviewen
Kruisverwijzingen binnen een document: Vinden hoe verschillende secties zich verhouden
Samenvatting: Een overzicht krijgen van uitgebreid materiaal

Maar dit zijn componenten van juridisch werk, niet het geheel. Voor onderzoek—het juiste recht vinden, verifiëren dat het actueel is, toepassen op feiten—is precisie belangrijker dan capaciteit.

De praktische conclusie

Llama 4's 10M contextvenster is een technische prestatie. Voor sommige use cases zal het echt nuttig zijn. Maar het verandert niet de fundamentele vereisten voor juridische AI: de juiste informatie vinden, verifiëren, en zorgvuldig redeneren.

We hebben Andri gebouwd rond precisie-retrieval en meerstaps-verificatie specifiek omdat juridisch werk dat vereist. Grotere contextvensters zijn een tool in de gereedschapskist, geen vervanging voor de gereedschapskist.

Probeer Andri en zie hoe precisie-gerichte juridische AI werkt in de praktijk.

Lees ook: waarom ChatGPT-wrappers niet werken voor juridisch onderzoek, hoe OpenAI's Deep Research verschilt van gespecialiseerde juridische AI, en hoe onze multi-model architectuur werkt.