Claude AI heeft nu de mogelijkheid om een gesprek te beëindigen: een nieuw mechanisme om met extreme situaties om te gaan
De afgelopen maanden heeft Anthropic zijn veiligheidsinspanningen geïntensiveerd door functies te implementeren en onderzoek te doen naar hoe AI veiliger kan worden gemaakt. De nieuwste functie lijkt Claude Het is een van de meest opvallende kenmerken ooit.

Zowel Claude Opus 4 als 4.1 (de nieuwste versies van Anthropic) bieden nu de mogelijkheid om gesprekken te beëindigen in de chatinterface van de gebruiker. Hoewel deze functie niet veel gebruikt zal worden, is deze geïmplementeerd voor zeldzame en extreme gevallen van "aanhoudend schadelijke of beledigende gebruikersinteracties".
In Een blogpost waarin de nieuwe functie wordt verkend"We zijn nog steeds grotendeels onzeker over de potentiële ethische status van Claude en andere grote taalmodellen, zowel nu als in de toekomst", aldus het Anthropic-team. "We nemen deze kwestie echter zeer serieus."
In tests voorafgaand aan de release van de nieuwste modellen van Anthropic voerde het bedrijf evaluaties uit van het welzijn van het model. Dit omvatte het onderzoeken van Claude's zelfgerapporteerde en gedragsvoorkeuren, en vond een sterke en consistente afkeer van schade.
We zijn nog steeds grotendeels onzeker over de mogelijke ethische status van Claude en andere grote taalmodellen, zowel nu als in de toekomst. We nemen deze kwestie echter serieus.
antropisch
Met andere woorden, Claude zou deze gesprekken effectief blokkeren of weigeren eraan deel te nemen. Dit omvatte verzoeken van gebruikers om seksuele content met minderjarigen en pogingen om informatie op te vragen die wijdverbreid geweld of terroristische aanslagen mogelijk zou kunnen maken.
In veel van deze gevallen bleven gebruikers doorgaan met schadelijke of beledigende verzoeken, ondanks Claude's actieve weigering om hieraan te voldoen. De nieuwe functie, waarmee Claude het gesprek effectief kan beëindigen, biedt in deze situaties enige bescherming.
Anthropic legt uit dat deze functie niet wordt toegepast in situaties waarin gebruikers een acuut gevaar lopen om zichzelf of anderen schade toe te brengen.
"Claude zou in alle gevallen de mogelijkheid om een gesprek te beëindigen alleen als laatste redmiddel moeten gebruiken, wanneer meerdere omleidingspogingen zijn mislukt en alle hoop op een productieve interactie is vervlogen, of wanneer de gebruiker Claude expliciet verzoekt om de chat te beëindigen", vervolgt het Anthropic-team in de blogpost.

“De scenario’s waarin dit zou gebeuren zijn extreem en zeldzaam – de overgrote meerderheid van de gebruikers zou deze functie niet opmerken of er geen last van ondervinden bij normaal gebruik van het product, zelfs niet wanneer er zeer controversiële kwesties met Claude worden besproken.”
Hoewel de gebruiker geen nieuwe berichten meer kan versturen in dat gesprek, verhindert dit niet dat hij of zij een nieuw gesprek op zijn of haar account kan starten. Om het mogelijke verlies van een lange gespreksthread te voorkomen, kunnen gebruikers nog steeds eerdere berichten bewerken en opnieuw proberen een nieuwe vertakking van het gesprek te starten.
Dit is een vrij unieke app van Anthropic. ChatGPT و Gemini و GrokDe drie grootste concurrenten van Claude hadden niets soortgelijks beschikbaar. Ze boden allemaal wel andere beschermingsmaatregelen, maar zover gingen ze niet.
Reacties zijn gesloten.