Drie bouwstenen van moderne AI
Begrijp de technologie die achter ChatGPT, zoekmachines en slimme apps zit.
Als je tegenwoordig iets typt in een AI-chatbot, lijkt het bijna magie. Maar achter de schermen zijn er een paar heel concrete technieken die samenwerken. In dit document leggen we drie begrippen uit in de juiste volgorde:
1. LLM — Large Language Model
Het brein. De AI die tekst begrijpt en genereert.
2. Embeddings — tekst als coördinaten
De methode om betekenis om te zetten in getallen, zodat een computer er mee kan rekenen.
3. IVFFlat Index — slim zoeken
De techniek om razendsnel de meest relevante informatie terug te vinden.
Het grote taalmodel
Wat is een LLM eigenlijk, en hoe heeft het "geleerd" te praten?
Een Large Language Model (LLM) is een computerprogramma dat enorm veel tekst heeft gelezen — boeken, websites, artikelen — en daardoor heeft geleerd hoe taal werkt.
Vergelijk het met een kind dat opgroeit en miljoenen zinnen hoort. Na verloop van tijd leert het kind niet alleen woorden, maar ook hoe zinnen kloppen, hoe je een vraag beantwoordt, en hoe verhalen in elkaar zitten. Een LLM doet precies hetzelfde — maar dan in een paar weken, met biljoenen woorden.
Een LLM voorspelt eigenlijk steeds het volgende woord — maar doordat het dit zo goed doet op zo’n enorme schaal, lijkt het alsof het echt begrijpt wat je bedoelt.
Hoe heeft het model al die kennis opgeslagen? In de vorm van miljarden kleine getallen — de zogenaamde parameters. Denk aan parameters als de "herinneringen" van het model, verspreid over een enorm netwerk. Hoe meer parameters, hoe meer nuance het model kan onthouden.
Hoe wordt een LLM getraind?
Voortraining op internet
Het model leest biljoenen woorden van het internet, Wikipedia, boeken en meer. Het leert voorspellen: "gegeven deze woorden, wat komt er waarschijnlijk daarna?"
Fijnafstelling op specifieke taken
Het model wordt bijgestuurd met duizenden voorbeelden van goede antwoorden, zodat het zich gedraagt als een behulpzame assistent.
Menselijke feedback
Mensen beoordelen antwoorden — goed of slecht — en het model leert hiervan. Zo wordt het steeds beter in het geven van nuttige, eerlijke antwoorden.
Bekende LLMs zijn o.a. ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google) en het open-source model Llama (Meta).
Embeddings
Hoe zet je de betekenis van een woord om in iets waarmee een computer kan rekenen?
Een computer begrijpt geen taal — alleen getallen. Embeddings zijn de brug: ze vertalen tekst naar een reeks getallen die de betekenis van die tekst vastlegt.
Stel je voor dat elke zin een adres heeft in een enorme denkbeeldige stad. Zinnen met een vergelijkbare betekenis wonen in dezelfde buurt. "De hond rent door het park" en "De puppy speelt buiten" liggen vlak bij elkaar. "Het rentepercentage steeg dit kwartaal" woont in een heel andere wijk.
In werkelijkheid is die "kaart" niet 2D maar heeft hij 1.536 dimensies — een getal dat de gemiddelde mens zich niet kan voorstellen, maar voor een computer gewoon een lange rij getallen is. Die rij getallen noem je een vector.
Een embedding is als een GPS-coördinaat voor de betekenis van een tekst. Twee teksten met vergelijkbare betekenis hebben coördinaten die dicht bij elkaar liggen.
Waarom is dit nuttig? Stel je hebt 100.000 artikelen opgeslagen. Als je zoekt op "wat eten honden?", wil je niet alleen artikelen vinden met die exacte woorden, maar ook artikelen over "voeding voor honden" of "wat mogen puppy’s eten". Met embeddings kun je zoeken op betekenis, niet alleen op letterlijke woorden.
De IVFFlat Index
Hoe vind je razendsnel de meest relevante informatie, zonder alles te hoeven doorzoeken?
Nu we weten dat elke tekst een plek op de "betekeniskaart" heeft, komt het volgende probleem: als je 1 miljoen teksten hebt opgeslagen, hoe vind je dan snel de tekst die het dichtstbij jouw zoekvraag ligt?
Zonder slimme techniek zou je elke zoekopdracht moeten vergelijken met álle 1 miljoen opgeslagen teksten. Dat is te traag. De IVFFlat-index lost dit op met een simpel maar briljant idee: deel eerst op in wijken, zoek dan alleen in de juiste wijk.
Hoe werkt het in de praktijk?
Groepen maken (eenmalig)
Bij het aanmaken van de database worden alle teksten automatisch in groepen (clusters) ingedeeld op basis van hun betekenis. Vergelijkbare teksten komen in dezelfde groep.
Jij stelt een vraag
Je zoekvraag wordt ook omgezet naar een embedding — een plek op de betekeniskaart.
Dichtste groep vinden
De index kijkt welke groep het dichtst bij jouw zoekvraag ligt. Dat duurt microseconden.
Alleen die groep doorzoeken
In plaats van 1 miljoen teksten te vergelijken, worden er misschien maar 10.000 vergeleken. Razendsnel.
IVFFlat vindt misschien niet altijd het allerbestste resultaat, maar wel bijna altijd een uitstekend resultaat — en dat in een fractie van de tijd.
Hoe werken ze samen?
De drie concepten als één systeem.
Stel je bouwt een slimme zoekmachine die 100.000 documenten doorzoekt. Zo werkt het achter de schermen:
Embedding model zet je vraag om in getallen
Jouw zoekvraag wordt een vector — een reeks getallen die de betekenis representeert.
IVFFlat index vindt de meest relevante documenten
In milliseconden worden de documenten gevonden met de meest vergelijkbare betekenis.
LLM formuleert een antwoord op basis van die documenten
Het taalmodel leest de gevonden documenten en schrijft een helder antwoord in gewone taal.
Dit patroon — embeddings + vector index + LLM — is de basis van vrijwel alle moderne AI-zoekmachines, chatbots met eigen data, en slimme documentassistenten. Nu je dit begrijpt, snap je de fundamenten van hoe moderne AI-applicaties werken.