Tue. 1 Oct 2024
Generatieve AI is een overkoepelende term die verwijst naar kunstmatige intelligentie modellen die in staat zijn om inhoud te genereren. Generatieve AI kan tekst, softwarecode, afbeeldingen, video en muziek genereren. Voorbeelden van generatieve AI zijn ChatGPT (tekst, code), DALL-E (afbeeldingen) en Sora (video). Het soort kunstmatige intelligentiemodellen dat generatieve AI mogelijk maakt, worden grote taalmodellen (of large language models of LLM's) genoemd. Zo’n LLM is een algoritme dat verschillende taken op het gebied van natuurlijke taalverwerking (natural language processing of NLP) kan uitvoeren. Grote taalmodellen worden getraind met behulp van enorme datasets tekst. Hierdoor kunnen ze tekst herkennen, vertalen, voorspellen of genereren, weet KBC Asset Management-analist Joris Franck.
Labeling no more
Veel vroege algoritmen voor machinaal leren vereisten dat trainingsvoorbeelden met de hand werden gelabeld door mensen. De trainingsgegevens konden bijvoorbeeld foto's van honden of katten zijn met een door mensen verstrekt label ("hond" of "kat") voor elke foto. De noodzaak voor mensen om gegevens te labelen maakte het moeilijk en duur om datasets te maken die groot genoeg waren om AI-modellen te trainen. Een belangrijke innovatie van LLM's is dat ze geen expliciet gelabelde gegevens nodig hebben.
Multidimensionale vectorruimte
Vandaag is de volgende beperking de beschikbare hoeveelheid door mensen gegenereerde tekst. Voor toekomstige generaties LLM's hebben we uiteindelijk niet genoeg gegevens om de LLM's te trainen. Een belangrijke factor in hoe LLM's werken, is de manier waarop woorden worden weergegeven. Die worden weergegeven met behulp van meerdimensionale vectoren.
Woorden met vergelijkbare contextuele betekenissen of andere relaties liggen dicht bij elkaar in deze multidimensionale vectorruimte. Met andere woorden, de LLM ziet patronen tussen woorden. Deze patronen stellen de LLM in staat om het volgende woord in een zin te voorspellen, wat er uiteindelijk toe leidt dat ChatGPT je een antwoord geeft. Deze patronen zijn vergelijkbaar met de patronen die een mens zou zien als hij dezelfde vraag zou krijgen.
LLM’s: parameters
Het aantal vectordimensies is enorm. In het geval van OpenAI's GPT-3 model heeft een woordvector 12 288 dimensies, wat moeilijk te bevatten is voor het menselijk brein, maar niet voor een computer. Het trainen van de LLM op een enorme dataset resulteert in het vinden van een waarde voor elk van de 12 288 gewichten van een vectorwoord, en dit voor elk woord dat de LLM tegenkomt.
Parameters zijn de numerieke waarden die een LLM tijdens de training berekent. Bijvoorbeeld de 12 288 gewichten van een vectorwoord. Een LLM is natuurlijk iets complexer dan dat en bevat nog veel meer lagen met parameters. Als vuistregel geldt: hoe hoger het aantal parameters, hoe verfijnder de LLM is en hoe beter de resultaten zullen zijn. Zoals gezegd is het aantal vectordimensies slechts een van de factoren die het totale aantal parameters van een bepaalde LLM bepalen. Het GPT-3 model heeft bijvoorbeeld 12 288 vectordimensies, maar in totaal 175 miljard parameters!
LLM: training vs inferentie
Het trainen van een LLM resulteert in het vinden van een waarde voor de gewichten van alle beschikbare vectorwoorden. Zodra die waarden zijn gevonden, kan het LLM-model worden gebruikt om een antwoord op een vraag te genereren. Dit proces wordt inferencing genoemd. De hoeveelheid rekenkracht die nodig is in het geval van training is erg groot. Je kunt in principe een LLM trainen op basis van alle informatie die je op internet kunt vinden.
De hoeveelheid rekenkracht voor inferencing is ook hoog, omdat de LLM moet omgaan met het totale aantal parameters van de LLM. In het geval van GPT-3 zijn er 175 miljard parameters of waarden om te overwegen en berekeningen op uit te voeren!
LLM: tokens
Tokens zijn de basiseenheden voor invoer en uitvoer in een LLM. De vraag die je stelt aan ChatGPT zijn de input tokens. Het antwoord dat je terugkrijgt van ChatGPT zijn de output tokens. Bij het verwerken van natuurlijke taal staan tokens meestal voor woorden, subwoorden of tekens. Tijdens de training en inferentie verwerkt de LLM ingevoerde tekst als een opeenvolging van tokens, die elk een specifiek woord of symbool in de ingevoerde tekst vertegenwoordigen. Het model genereert uitvoer door het meest waarschijnlijke token te voorspellen dat volgt op een gegeven reeks invoertokens.
LLM: multimodaal
Inmiddels hebben we geleerd dat LLM's tekst opsplitsen in multidimensionale woordvectoren, oftewel een verzameling getallen. Dezelfde techniek kan ook worden toegepast op andere modaliteiten, zoals afbeeldingen, video en muziek. Net zoals tekst wordt opgesplitst in verzamelingen getallen, kunnen afbeeldingen ook worden opgesplitst in verzamelingen getallen.
Hetzelfde geldt voor video en muziek. Voor die andere modaliteiten is de LLM ook in staat om patronen te zien binnen die sets van getallen. Als zodanig kan de LLM voorspellingen doen die leiden tot het genereren van een nieuwe afbeelding, een nieuwe video of een nieuw nummer.
OpenAI onthulde GPT-4o (o voor 'Omni') in mei 2024, een nieuw AI-model met realistische spraakconversaties en verbeterde prestaties op het gebied van tekst, visie, audio, codering en taalvertaling. De kosten voor inferencing zijn 50% lager dan GPT-4 en de snelheid is twee keer zo hoog. GPT-4o is gratis beschikbaar voor alle ChatGPT-gebruikers.
OpenAI's GPT-modellen
Onderstaande tabel toont een historisch overzicht van de LLM's die door OpenAI zijn uitgebracht. We wachten nu op de lancering van het GPT-5 model. Er gaan immers geruchten dat OpenAI het zeer binnenkort zal uitbrengen, uiterlijk eind 2024 of begin 2025.
Merk ook op dat bij elke nieuwe generatie het aantal parameters minstens vertienvoudigd is. Dit betekent ook dat de hoeveelheid rekenkracht (denk aan de GPU's van Nvidia) die nodig is om het model te trainen en de inferenties uit te voeren, met dezelfde grootte is toegenomen.
Enkele andere leuke feiten:
- ChatGPT werd gelanceerd in november 2022 en gebruikte het GPT-3.5-model, wat het GPT-3-model was dat was geüpgraded met Reinforcement Learning with Human Feedback.
- ChatGPT die het GPT-4-model gebruikt, is de eerste AI die slaagt voor een Turingtest voor twee spelers, d.w.z. die menselijke gesprekspartners voor de gek houdt in meer dan 50% van de tijd, 54% om precies te zijn.
OpenAI o1 modellen
OpenAI o1 is een nieuwe familie LLM's van OpenAI. De o1-modellen van OpenAI (o1-preview en o1-mini) werden uitgebracht in september 2024. Deze modellen hebben geavanceerde redeneercapaciteiten en presteren beter dan mensen bij wetenschappelijke en wiskundige vragen op PhD-niveau.
OpenAI legt uit dat o1 is getraind om meer tijd te besteden aan denken dan eerdere modellen, waardoor het dichter bij menselijke intelligentie komt. Volgens OpenAI: "denkt o1 seconden na, maar we streven ernaar dat toekomstige versies uren, dagen en zelfs weken nadenken. De inferentiekosten zullen hoger zijn, maar welke prijs zou jij betalen voor een nieuw medicijn tegen kanker? Voor baanbrekende batterijen? Voor een bewijs van de Riemann Hypothese? AI kan meer zijn dan chatbots".
OpenAI is niet de enige: AI-wapenwedloop in volle gang
Onderstaande tabel toont een ranglijst met de best presterende LLM's van dit moment. Hieruit blijkt dat de LLM's van OpenAI nog steeds de beste zijn, maar de concurrentie komt in de buurt, vooral die van Google, xAI (een ander bedrijf van Elon Musk), Anthropic en Meta Platforms. LLM bedrijven zijn gelukkig niet alleen een Amerikaans fenomeen. Mistral is een Europees bedrijf en Alibaba is natuurlijk een Chinees bedrijf. Beide staan ook vrij hoog in de ranglijst. En tot verrassing van sommigen ontwikkelen ook Microsoft en Nvidia hun eigen LLM's, al zijn dat zeker niet de best presterende LLM's.
Verschillende AI-wapenwedlooptactieken: Open source vs bedrijfseigen
In bovenstaande tabel is duidelijk dat het niet alleen een wapenwedloop is tussen de verschillende LLM-firma's. Het is ook een strijd tussen proprietary (closed source) en open source LLM-modellen. De meeste vooraanstaande AI-firma's kiezen ervoor om hun eigen propriëtaire LLM's te ontwikkelen, maar er zijn enkele zinvolle uitzonderingen zoals Meta Platforms, maar ook Mistral, en verderop in de ranglijst Microsoft en Nvidia (ze maken niet alleen GPU-chips!).
Open-source betekent dat iedereen naar je softwarecode kan kijken en verbeteringen kan aanbrengen/suggereren. Maar het betekent ook dat iedereen de open-source LLM gratis voor zichzelf kan gebruiken.
Om Meta's CEO Mark Zuckerberg te citeren: “Mij wordt vaak gevraagd waarom ik zo positief ben over open source. ... Ik geloof dat open dat beter is voor ontwikkelaars, voor Meta en voor de wereld in het algemeen. Mijn visie is dat open source veiliger zal zijn, innovatie mogelijk zal maken die al onze levens sneller verbetert en ook meer gedeelde welvaart zal creëren”. De tijd zal uitwijzen wie de winnaar wordt …