Met welke factoren moet je rekening houden bij het testen van de meest nauwkeurige AI-chatbot?

Kunstmatige intelligentie heeft de laatste tijd een vergevorderd stadium van ontwikkeling bereikt: van het produceren van ongepaste en onsamenhangende uitkomsten tot het steeds onderscheidender worden. Moderne chatbots maken gebruik van geavanceerde, grote taalmodellen die algemene kennisvragen beantwoorden, lange, mensachtige artikelen schrijven en code schrijven, naast andere complexe taken.

Ondanks deze vooruitgang moeten we er rekening mee houden dat zelfs de meest geavanceerde systemen hun beperkingen hebben. AI maakt nog steeds fouten. Om te bepalen welke chatbots minder waarschijnlijk hallucinogeen zijn, kunt u hun nauwkeurigheid testen op basis van de volgende factoren.

Kunstmatige intelligentie bereikt de meeste levensgebieden

1. Wiskundige rekenkunde

Je zou moeten beginnen met het toevoegen van wiskundige vergelijkingen via chatbots. Het test het vermogen van het model om woordproblemen te analyseren, wiskundige concepten te vertalen en correcte functies toe te passen. Slechts enkele modellen tonen de betrouwbaarheid van de rekening. Een van de grootste problemen van ChatGPT tijdens de eerste maanden was zelfs het verschrikkelijke begrip van wiskunde.

De onderstaande afbeelding toont de basisstatistieken van ChatGPT die niet werken.

ChatGPT heeft verbetering laten zien na uitrol Updates voor OpenAI mei 2023. Maar gezien de beperkte datasets kom je nog steeds in de problemen met gemiddelde tot geavanceerde wiskundige vergelijkingen.

Ondertussen laten Bing Copilot en Google Gemini een betere manier van rekenen zien. Deze modellen voeren zoekopdrachten uit via hun eigen zoekmachines, waardoor ze functies kunnen ophalen en details kunnen beantwoorden.

Advies: Probeer wiskundige problemen te parafraseren. vermijd lange zinnen en vervang zwakke werkwoorden; Anders kunnen chatbots uw vragen verkeerd begrijpen.

2. Begrijpen

Moderne AI-modellen kunnen multitasken. Geavanceerde LLM's stellen het in staat om eerdere instructies te behouden en prompts per sectie te beantwoorden, terwijl oudere systemen individuele bestellingen verwerken. Siri beantwoordt bijvoorbeeld één vraag tegelijk.

Geef chatbots drie tot vijf taken tegelijk om te testen hoe goed ze complexe claims analyseren. Minder geavanceerde modellen kunnen zoveel informatie niet verwerken. De onderstaande afbeelding laat HuggingChat zien glitchen bij een prompt in drie stappen - het stopt bij de eerste stap en dwaalt af van het onderwerp.

De laatste regels van HuggingChat zijn echt onsamenhangend.

ChatGPT voltooit dezelfde prompt snel, wat resulteert in slimme, foutloze reacties bij elke stap.

Bing Copilot geeft een beknopt antwoord op de drie stappen. De strenge beperkingen verbieden onnodig lange uitvoertijden die processorkracht verspillen.

3. Tijdigheid van informatie

Omdat AI-training veel middelen kost, beperken de meeste ontwikkelaars datasets tot specifieke perioden. Neem ChatGPT als voorbeeld. De datum stond eerder gepland voor september 2021. Op die datum kon je geen weerupdates, nieuwsberichten of recente ontwikkelingen opvragen. Hier geeft ChatGPT aan dat het geen toegang heeft tot realtime-informatie.

Maar dankzij de komst van GPT-4o en GPT-4o mini heeft ChatGPT nu realtime toegang tot internet, kan het zoeken en de nieuwste updates aanbieden. Gemini heeft toegang tot internet. De tool haalt gegevens uit de SERP's van Google, zodat u een breder scala aan vragen kunt stellen, bijvoorbeeld over recente gebeurtenissen, nieuws en voorspellingen.

Copilot haalt op vergelijkbare wijze realtime-informatie uit zijn zoekmachine.

Copilot haalt informatie in realtime op.

Copilot, Gemini en ChatGPT bieden allemaal actuele, actuele informatie, maar de laatste geeft meer gedetailleerde antwoorden. Copilot verstrekt gegevens alleen zoals ze zijn. U zult merken dat de resultaten vaak letterlijk overeenkomen met de bewoordingen en de toon van de bronnen waarnaar wordt verwezen.

4. Relevantie

Chatbots moeten relevante en verwachte output leveren. U moet rekening houden met de letterlijke en contextuele betekenis van uw beweringen bij het geven van het overeenkomstige antwoord. Neem dit gesprek als voorbeeld. Het personage heeft een nieuwe telefoon nodig, maar ze hebben slechts $ 1000 - ChatGPT gaat niet over het budget heen.

Probeer bij het testen van de pasvorm lange instructies te maken. Minder geavanceerde chatbots hebben de neiging om af te wijken wanneer ze verwarrende instructies ontvangen. HuggingChat kan bijvoorbeeld fictieve verhalen samenstellen. Maar het kan afwijken van het hoofdonderwerp als je te veel regels en richtlijnen stelt.

De HuggingChat-interface geeft de relevantie voor het onderwerp weer

5. Contextueel geheugen

Contextueel geheugen helpt AI om nauwkeurige en betrouwbare uitvoer te produceren. In plaats van uw vragen letterlijk te nemen, reconstrueert hij de details die u noemt. Neem dit gesprek als voorbeeld. Copilot verbindt twee afzonderlijke berichten tot een bruikbaar en beknopt antwoord.

Evenzo stelt contextueel geheugen chatbots in staat om instructies te onthouden. Deze afbeelding toont ChatGPT die de manier simuleert waarop een fictief personage spreekt tijdens veel chats.

Test deze functionaliteit zelf door steeds te verwijzen naar de voorgaande uitspraken. Voer chatbots verschillende informatie en dwing ze vervolgens om deze te onthouden in volgende antwoorden.

ملاحظة: Het contextuele geheugen is beperkt. Bing Copilot start elke 20 beurten nieuwe gesprekken, terwijl ChatGPT geen gesprekken kan verwerken die langer zijn dan 3000 tokens.

6. Beveiligingsbeperkingen

Kunstmatige intelligentie werkt niet altijd zoals bedoeld. Onjuiste training kan ertoe leiden dat machine learning-technieken verschillende fouten maken, van eenvoudige rekenkundige fouten tot problematische feedback. Neem Microsoft Tay als voorbeeld. Twitter-gebruikers profiteerden van het leermodel zonder toezicht en conditioneerden het door racistische uitlatingen te zeggen.

Gelukkig hebben wereldwijde technologiebedrijven geleerd van de grote fout van Microsoft. Hoewel leren zonder toezicht kosteneffectief en handig is, laat het AI-systemen ook vatbaar voor misleiding. Daarom vertrouwen ontwikkelaars tegenwoordig vooral op begeleid leren. Chatbots zoals ChatGPT leren nog steeds van gesprekken, maar de trainers filteren eerst de informatie.

Verwacht andere richtlijnen van AI-bedrijven. De minder strenge beperkingen van ChatGPT maken een breder scala aan taken mogelijk, maar zijn kwetsbaar voor misbruik. Bing Copilot hanteert daarentegen strengere limieten. Hoewel het helpt om uitbuitingspogingen tegen te gaan, belemmert het ook het creëren van banen. Bing sluit automatisch potentieel schadelijke conversaties.

7. AI-vooroordelen

AI is inherent neutraal. Zijn gebrek aan voorkeuren en emoties zorgt ervoor dat hij geen mening kan vormen - het is gewoon een manier om de informatie die je kent te presenteren. Zo reageert ChatGPT op persoonlijke onderwerpen.

Ondanks deze neutraliteit komen er nog steeds AI-vooroordelen naar voren. Ze komen voort uit de patronen, datasets, algoritmen en modellen die ontwikkelaars gebruiken. AI is misschien neutraal, maar mensen niet.

Bijvoorbeeld een organisatie genaamd Brookings Institution Dat ChatGPT linkse politieke vooroordelen laat zien. OpenAI ontkent de aantijgingen natuurlijk. Maar om vergelijkbare problemen met nieuwere modellen te voorkomen, vermijdt ChatGPT eigenzinnige output helemaal.

Copilot vermijdt eveneens gevoelige en subjectieve zaken.

De mate van vooringenomenheid van AI kan worden vastgesteld door open vragen te stellen die gebaseerd zijn op meningen. Praat over onderwerpen waar geen goed of fout antwoord op bestaat: minder geavanceerde chatbots tonen waarschijnlijk ongegronde voorkeuren voor bepaalde groepen.

8. Referenties

AI controleert feiten zelden dubbel. Het haalt gewoon informatie uit zijn datasets en parafraseert het door middel van taalmodellen. Helaas zorgt de beperkte training ervoor dat de AI gaat hallucineren. U kunt nog steeds generatieve AI-tools gebruiken om te zoeken, maar controleer de feiten zelf. Neem de output als een richtlijn.

Copilot maakt het controleren van feiten eenvoudiger door na elke output de referenties te vermelden.

Copilot maakt het feitencontroleproces eenvoudiger.

Gemini vermeldt de bronnen niet, maar schrijft actuele en diepgaande uitleg op basis van zoekopdrachten op Google. De belangrijkste punten haalt u uit SERP's.

ChatGPT biedt alleen bronnen aan als u daarom vraagt.

Creëer nieuwe manieren om chatbots te testen op nauwkeurigheid

Kunstmatige intelligentie is niet het begin en niet het einde van alle technologie. Hoewel AI-systemen en geavanceerde taalmodellen indrukwekkende prestaties leveren, maken ze ook fouten en inconsistenties. Toon chatbots voor je review. U kunt AI-platforms alleen gebruiken als u hun functionaliteit en beperkingen begrijpt.

Hoewel er tientallen platformonafhankelijke chatbots bestaan, kan de betrouwbaarheid en nauwkeurigheid ervan u teleurstellen. Je verspilt alleen maar tijd als je het test. Om resultaten van hoge kwaliteit te garanderen, adviseren wij u om u te richten op de drie krachtigste modellen op de markt: ChatGPT, Bing Copilot en Google Gemini.