Een nieuw onderzoek onthult waarom ChatGPT informatie blijft verzinnen.

0

Op een dag wisselde ik ideeën uit met ChatGPT Plotseling begon hij aan een lang, fictief verhaal dat niets met mijn prompts te maken had. Het was zo belachelijk dat ik erom moest lachen. De laatste tijd zie ik dit soort fouten niet zo vaak meer in tekstprompts, maar bij het genereren van afbeeldingen zie ik ze nog steeds vrij regelmatig.

Deze willekeurige momenten waarop de chatbot afwijkt van zijn taak, staan ​​bekend als 'hallucinaties'. Het vreemde is dat deze bot de foute antwoorden die hij geeft vertrouwt, wat een van de grootste zwakheden is van de huidige AI-assistenten. Nieuwe studie van OpenAI Deze fouten zijn echter niet willekeurig, maar een direct gevolg van de manier waarop de modellen worden getraind en geëvalueerd.

Telefoon vasthouden met ChatGPT-logo

Waarom blijven chatbots maar gissen, terwijl dat niet de bedoeling is?

ChatGPT-logo op telefoon voor robot die denkt

Onderzoek suggereert dat deze hallucinaties worden veroorzaakt door een structureel probleem. De kern van het probleem ligt bij de normen en scoreborden die AI-modellen evalueren en overtuigende antwoorden belonen.

Met andere woorden, wanneer een chatbot "Ik weet het niet" zegt, wordt hij bestraft in de test. Dit betekent dat modellen actief worden aangemoedigd om altijd een antwoord te geven, zelfs als ze niet zeker weten of het correct is.

In de praktijk zorgt dit ervoor dat je slimme assistent eerder zal gokken dan onzekerheid te erkennen. Dit kan onschuldig zijn bij eenvoudige, alledaagse vragen. Maar in gevoeligere situaties, van medische vragen tot financieel advies, kunnen die zelfverzekerde fouten al snel uitgroeien tot reële risico's.

Als ervaren gebruiker controleer ik daarom altijd de feiten en vraag ik de chatbot om een ​​bron. Soms, als de informatie vergezocht lijkt en ik om een ​​bron vraag, zegt de chatbot iets als "Goed punt!" of iets dergelijks, zonder toe te geven dat het onjuist was.

Ook nieuwere modellen zijn hier niet immuun voor.

ChatGPT-5-afbeelding op een toetsenbord

Interessant genoeg ontdekte het OpenAI-artikel dat inferentiegerichte modellen zoals o3 en o4-mini feitelijk vaker hallucineren dan sommige oudere modellen. Waarom? Omdat ze over het algemeen meer beweringen produceren, wat meer kans op fouten betekent.

Dus alleen omdat een model ‘slimmer’ is in het maken van gevolgtrekkingen, betekent dat niet noodzakelijkerwijs dat het ook eerlijker is over wat het niet weet.

Wat is de oplossing voor dit probleem?

Persoon codeert op de computer

Onderzoekers geloven dat de oplossing ligt in het veranderen van de manier waarop we AI evalueren en meten. In plaats van modellen te straffen voor het zeggen van "Ik weet het niet zeker", zouden waardevollere tests gekalibreerde reacties, indicaties van onzekerheid of de mogelijkheid om naar andere bronnen te verwijzen, moeten belonen.

Dit zou kunnen betekenen dat je toekomstige chatbot zijn antwoorden meer zal afschermen en minder zal vertrouwen op de "Dit is het antwoord"-aanpak en meer op de "Dit is wat ik denk, maar ik weet het niet zeker". Dit lijkt misschien trager, maar het zou schadelijke fouten aanzienlijk kunnen verminderen. Dit bewijst dat kritisch denken van onze kant nog steeds belangrijk is.

Hoe belangrijk is dit voor jou?

Persoon typt op laptoptoetsenbord

Als je populaire chatbots zoals ChatGPT, Gemini, Claude of Grok gebruikt, heb je waarschijnlijk al eens "hallucinaties" ervaren. Dit onderzoek suggereert dat het niet alleen om het model zelf gaat, maar eerder om de manier waarop het wordt getest – als een kansspel om te zien wie het meestal bij het rechte eind heeft.

Voor gebruikers betekent dit dat we voorzichtig moeten zijn en AI-antwoorden als een eerste suggestie moeten beschouwen, niet als het laatste woord. Voor ontwikkelaars is dit een teken dat het tijd is om te heroverwegen hoe we succes meten, zodat toekomstige AI-assistenten kunnen herkennen wat ze niet weten in plaats van cruciale fouten te maken.

Laat een antwoord achter

Uw e-mailadres wordt niet gepubliceerd.