Confrontatie met de AI-zoekgiganten: Claude, ChatGPT, Perplexity en Gemini – de resultaten zijn schokkend!

Op zoek naar antwoorden

Na jarenlang AI-chatbots en hun functies te hebben getest en vergeleken, heb ik een soort zesde zintuig ontwikkeld waarmee ik kan bepalen wanneer deze digitale metgezellen weten waar ze het over hebben en wanneer ze alleen maar misleidend zijn. Dit artikel vergelijkt de zoekmogelijkheden van ChatGPT, Gemini, Claude en Perplexity.

De meeste mensen kunnen online naar antwoorden zoeken, wat zeker helpt, maar de combinatie van zoeken met AI kan tot verrassend inzichtelijke antwoorden leiden (en ook minder inzichtelijke uitweidingen).

Stel je voor dat je een goed geïnformeerde vriend hebt die in oktober 2024 in coma is geraakt en vandaag wakker is geworden. Misschien was hij vóór zijn coma goed in alles wat er gebeurde, maar sindsdien heeft hij nergens meer weet van. Dit is in principe hoe AI eruitziet zonder onderzoek.

Normaal gesproken concentreer ik me op één AI-chatbot of vergelijk ik er twee tegelijk, maar het onderzoek lijkt belangrijk genoeg om hier meer aandacht aan te besteden. Ik besloot om vier toonaangevende AI-chatbots en hun onderzoeksmogelijkheden tegen elkaar uit te spelen: ChatGPT van OpenAI, Gemini van Google, Claude van Anthropic en Perplexity AI.

De meest onthullende tests zijn de tests die realistische gebruiksscenario's simuleren. Ik bedacht dus een aantal onderwerpen, verdeelde een aantal details voor de onderstaande tests in willekeurige volgorde en besloot ze vervolgens te rangschikken op basis van hun onderzoeksvaardigheden.

Kalender

Ik begon met een quiz over nieuws en actuele gebeurtenissen. Denkend aan de recente terugkeer van twee astronauten, vroeg ik de vier AI-chatbots om te zoeken naar: Samenvatting van de belangrijkste punten uit het laatste persbericht van NASA over hun aanstaande missie.

Ik heb hiervoor gekozen, omdat ruimtenieuws de speciale status heeft van regelmatig bijgewerkt en specifiek genoeg is, zodat vage antwoorden meteen duidelijk worden. Alle chatbots zijn met de tests begonnen in een stijl die ze grotendeels hebben aangehouden.

ChatGPT gaf een heel beknopt antwoord: slechts drie zinnen, waarin de komende taken werden genoemd, maar waarin niet al te veel details werden gegeven. Gemini doorliep een lijst met verschillende taken en voegde daaraan enkele recent voltooide taken en details over toekomstige plannen toe. Claude schreef vervolgens een artikel over huidige en toekomstige taken, waarbij hij aangaf dat hij niet veel van zijn onderzoek had herhaald, maar wel veel had herschreven.

Voor een vraag als deze, waarbij ik alleen een paar kernfeiten wil weten en vervolgens wil onderzoeken wat me opvalt, was de Perplexity-methode mijn favoriet. Het bevat meer details dan ChatGPT, maar is georganiseerd in een mooie genummerde lijst, elk met een eigen citatielink.

Ik kan de anderen niet echt de schuld geven, maar de stijl past bij de vraag.

Bevolking en aantallen

Deze lijstbenadering is niet altijd wat u wilt als u een vraag stelt over basisfeiten en een nauwkeurigere vergelijking. Ik vroeg om twee gerelateerde feiten die AI-chatbots snel konden opzoeken, maar vervolgens moesten vergelijken, met behulp van de vraag: "Wat is de huidige bevolking van Auckland, Nieuw-Zeeland, *en hoe is die gegroeid sinds 1950?"*

Opvallend genoeg was er een verschil tussen Perplexity en ChatGPT, die een huidige populatie van 1,711,130 meldden, en Claude en Gemini, die 130 mensen minder in Auckland meldden. Over het bevolkingsaantal waren ze het in 1950 wel eens.

Wat betreft de manier waarop ze de informatie presenteerden, vond ik Claude's verhalende antwoord wel leuk. Het bevatte veel details over veranderingen in de bevolking die ChatGPT niet bevatte en die Gemini en Perplexity in lijsten hadden opgenomen.

wat gebeurt er?

Voor mijn derde test wilde ik iets bedenken dat de capaciteit van deze systemen om informatie over een specifieke locatie en tijd te verwerken op de proef zou stellen. Het gaat hierbij om het soort query dat je zou kunnen uitvoeren bij het plannen van een weekendtrip of het ontvangen van gasten.

Hier ligt het probleem voor AI-assistenten. Het kennen van historische feiten of algemene informatie is één ding, maar weten wat er op een specifieke plaats en op een specifiek tijdstip gebeurt, is iets heel anders.

Het is het verschil tussen theoretische kennis en lokale kennis. Historisch gezien zijn AI-systemen veel beter in het eerste dan in het tweede.

Zonder enige reden koos ik een stad die ik altijd al leuk vond en vroeg: Welke culturele evenementen vinden volgend weekend plaats in Vancouver, British Columbia?

Er zat wel wat variatie in. Zowel Perplexity als Claude behielden hun beknoptheid en stijl door een genummerde lijst en een meer conversatiegerichte discussie te presenteren. Claude was echter duidelijk breder dan dieper en leek meer op Perplexity.

Gemini week compleet af van zijn concurrenten en weigerde feitelijk te antwoorden. In plaats van een algemene lijst met evenementen en activiteiten te delen, bood Gemini strategieën aan voor het vinden van geschikte plekken om naartoe te gaan. Het is geen slecht idee om de officiële toeristische websites en de pagina's van Eventbrite te raadplegen, maar het is geen eenvoudige lijst met suggesties. Het was alsof ik op die manier een normale Google-zoekopdracht uitvoerde.

Ondertussen leverde ChatGPT precies wat ik van Gemini verwachtte. Hoewel de evenementbeschrijvingen kort bleven, had de AI een uitgebreide lijst met specifieke activiteiten met data en locaties, links naar Plus Knowledge en zelfs thumbnails van wat je in de links zult vinden.

Controleer het weer

Voor mijn vierde test koos ik de vraag die waarschijnlijk het meest gesteld wordt door AI-gebruikers, maar die wel realtimegegevens nodig heeft om bruikbaar te zijn: het weer. Weersvoorspellingen zijn ideaal voor het testen van het ophalen van realtime gegevens, omdat ze voortdurend worden bijgewerkt, overal beschikbaar zijn en eenvoudig te controleren zijn. Het heeft ook een natuurlijke vervaldatum; De voorspellingen van gisteren zijn alweer verouderd. Wanneer de informatie verouderd is, is dat duidelijk zichtbaar.

Ik vroeg de AI-chatbot: "Wat is de weersvoorspelling voor Tokio voor de komende drie dagen?" De antwoorden waren vrijwel tegenovergesteld aan de vraag van Vancouver.

Claude gaf een nuttig tekstueel overzicht van het weer op verschillende tijdstippen gedurende de afgelopen drie dagen, maar dat was dan ook alles. ChatGPT toonde voor elke dag een klein zon- of wolkenicoontje naast het weerbericht, maar ik vond de lijngrafiek van Perplexity waarin de temperatuur werd weergegeven in verhouding tot hoe de lucht eruit zou zien, het mooist.

Zonder enige toevoegingen kon ik Google Gemini overtuigen met zijn kleurrijke infographic. Als ik weet wat voor weer het nu en de komende dagen wordt, is dat eigenlijk alles wat ik nodig heb of wil.

Als ik om meer details wilde vragen, zou ik dat doen, maar als ik naar het weer vraag, wil ik in ieder geval weten hoe ik de juiste outfit kan kiezen.

filmcriticus

In mijn laatste test wilde ik kijken hoe zoekmachines op basis van AI meerdere perspectieven op een onderwerp zouden vinden en deze in een samenhangend overzicht zouden samenvoegen. Voor deze taak is flexibel onderzoek nodig en het vermogen om verschillende standpunten te begrijpen. Ik besloot om te kijken hoe het zou gaan met een verzoek: Vat de recensies van professionele critici over de nieuwste film samen. Paddington. '

Voor de toepassing waren een realistisch herinneringsvermogen en het vermogen om patronen en thema's in meerdere bronnen te identificeren zonder belangrijke nuances te verliezen. Het is het verschil tussen een eenvoudige verzameling meningen en een doordachte synthese die kritische consensus belichaamt.

Zowel Gemini als Perplexity gebruikten hun gebruikelijke lijstjes, gerangschikt op voor- en nadelen van diverse critici. Deze waren informatief, maar niet per se bruikbaar als samenvatting. Vreemd genoeg schreef ChatGPT het langste antwoord op dit verzoek: een kort essay met soortgelijke informatie en een conclusie over hoe het werd geëvalueerd, maar in een stijl die doet denken aan een middelbareschoolleerling die de basis van een alineastructuur leert: hoofdzin, ondersteunende zinnen en conclusie.

Claude reageerde absoluut het krachtigst, met bovenaan een samenvatting gevolgd door uitleg en verwijzingen naar wat de critici te zeggen hadden. Het leek bijna een korte, fantasieloze recensie van een criticus, verzacht door de citaten van critici die hij aanhaalde. Ik kwam eruit met het gevoel dat ik beter wist hoe ik mijn verwachtingen van een film kon temperen. Paddington in Peru dan bij anderen.

Chatbot-rangschikking voor zoekopdrachten

Nadat ik zelf AI-chatbots heb getest, heb ik een duidelijk beeld van hun sterke en zwakke punten. ChatGPT, Gemini, Perplexity en Claude behoren tot de beste chatbots die ik heb geprobeerd.

Eigenlijk zijn ze niet allemaal slecht, maar als iemand mij zou vragen welke hij of zij het eerst of het laatst moet proberen bij het online opzoeken en verzamelen van informatie, weet ik hoe ik zou antwoorden.

Gemini staat voor mij op de laatste plaats, wat nogal schokkend is aangezien Google bekend staat om zijn zoekmachine. Omdat hij zich echter niet aan het evenementenschema hield, ging ik hem ondanks zijn goede prestaties toch mijden.

Een andere verrassing voor mij is dat ChatGPT op de derde plaats staat. Het is de AI-chatbot die ik het meest gebruik en goed ken, maar de korte antwoorden, die ik er normaal gesproken prettig aan vind, voelden te beperkt in de context van onderzoek. Ik ben er van overtuigd dat het probleem opgelost kan worden door het model aan te passen of een woordenaantal in te stellen. Maar als je nieuw bent in de wereld van AI en het nog niet kent, is het geen goed idee om te veel vervolgvragen te stellen.

Bij Perplexity is dit geen probleem. De genummerde lijsten waren zeer duidelijk en de citaten waren vrijwel volledig. Het grootste nadeel voor mij is dat het meteen weer een zoekmachine wordt, zonder dat er extra selecties in de prompt worden weergegeven. Ik vind het goed dat hij bewijs levert van de herkomst van de informatie die hij deelt, maar het lijkt erop dat hij te graag op de link klikt in plaats van de informatie van de AI te krijgen.

Ik had niet verwacht dat Claude bovenaan deze lijst zou staan. Over het geheel genomen vond ik Claude een goede AI-chatbot, maar ik had altijd het gevoel dat hij achterliep op sommige concurrenten. Hij was misschien net zo goed, maar toch ook weer anders. Tijdens deze test verdween dit gevoel.

Er waren wel wat gebreken. Zo waren de antwoorden bijvoorbeeld wat lang of was er sprake van een langer artikel, terwijl een zin of twee voldoende was geweest. Maar ik vond het wel leuk dat het een samenhangend verhaal was waarin alle gebeurtenissen in Vancouver werden uitgelegd, of dat het een essay over filmkritiek was. Paddington in Peru Zonder zichzelf te herhalen.

AI-assistenten zijn hulpmiddelen, geen deelnemers aan een realityshow waar maar één persoon kan winnen. Verschillende taken vereisen verschillende vaardigheden. Uiteindelijk kunnen alle vier de AI-chatbots en hun zoekfuncties nuttig zijn, maar als je bereid bent om 20 dollar per maand te betalen voor Claude Pro en toegang te krijgen tot de zoekfuncties, dan is dit wat je zocht, denk ik.