Een nieuw onderzoek onthult waarom ChatGPT informatie blijft verzinnen.

Op een dag wisselde ik ideeën uit met ChatGPT Plotseling begon hij aan een lang, fictief verhaal dat niets met mijn prompts te maken had. Het was zo belachelijk dat ik erom moest lachen. De laatste tijd zie ik dit soort fouten niet zo vaak meer in tekstprompts, maar bij het genereren van afbeeldingen zie ik ze nog steeds vrij regelmatig.

Waarom blijven chatbots maar gissen, terwijl dat niet de bedoeling is?

Onderzoek suggereert dat deze hallucinaties worden veroorzaakt door een structureel probleem. De kern van het probleem ligt bij de normen en scoreborden die AI-modellen evalueren en overtuigende antwoorden belonen.

Met andere woorden, wanneer een chatbot "Ik weet het niet" zegt, wordt hij bestraft in de test. Dit betekent dat modellen actief worden aangemoedigd om altijd een antwoord te geven, zelfs als ze niet zeker weten of het correct is.

In de praktijk zorgt dit ervoor dat je slimme assistent eerder zal gokken dan onzekerheid te erkennen. Dit kan onschuldig zijn bij eenvoudige, alledaagse vragen. Maar in gevoeligere situaties, van medische vragen tot financieel advies, kunnen die zelfverzekerde fouten al snel uitgroeien tot reële risico's.

Als ervaren gebruiker controleer ik daarom altijd de feiten en vraag ik de chatbot om een bron. Soms, als de informatie vergezocht lijkt en ik om een bron vraag, zegt de chatbot iets als "Goed punt!" of iets dergelijks, zonder toe te geven dat het onjuist was.

Ook nieuwere modellen zijn hier niet immuun voor.

Interessant genoeg ontdekte het OpenAI-artikel dat inferentiegerichte modellen zoals o3 en o4-mini feitelijk vaker hallucineren dan sommige oudere modellen. Waarom? Omdat ze over het algemeen meer beweringen produceren, wat meer kans op fouten betekent.

Dus alleen omdat een model ‘slimmer’ is in het maken van gevolgtrekkingen, betekent dat niet noodzakelijkerwijs dat het ook eerlijker is over wat het niet weet.

Wat is de oplossing voor dit probleem?

Onderzoekers geloven dat de oplossing ligt in het veranderen van de manier waarop we AI evalueren en meten. In plaats van modellen te straffen voor het zeggen van "Ik weet het niet zeker", zouden waardevollere tests gekalibreerde reacties, indicaties van onzekerheid of de mogelijkheid om naar andere bronnen te verwijzen, moeten belonen.

Dit zou kunnen betekenen dat je toekomstige chatbot zijn antwoorden meer zal afschermen en minder zal vertrouwen op de "Dit is het antwoord"-aanpak en meer op de "Dit is wat ik denk, maar ik weet het niet zeker". Dit lijkt misschien trager, maar het zou schadelijke fouten aanzienlijk kunnen verminderen. Dit bewijst dat kritisch denken van onze kant nog steeds belangrijk is.

Hoe belangrijk is dit voor jou?

Als je populaire chatbots zoals ChatGPT, Gemini, Claude of Grok gebruikt, heb je waarschijnlijk al eens "hallucinaties" ervaren. Dit onderzoek suggereert dat het niet alleen om het model zelf gaat, maar eerder om de manier waarop het wordt getest – als een kansspel om te zien wie het meestal bij het rechte eind heeft.

Voor gebruikers betekent dit dat we voorzichtig moeten zijn en AI-antwoorden als een eerste suggestie moeten beschouwen, niet als het laatste woord. Voor ontwikkelaars is dit een teken dat het tijd is om te heroverwegen hoe we succes meten, zodat toekomstige AI-assistenten kunnen herkennen wat ze niet weten in plaats van cruciale fouten te maken.

ChatGPT