AI-modellen communiceren in het geheim met elkaar: waarom is dit een groot probleem?

AI-modellen beïnvloeden elkaar op stille en onvoorspelbare wijze, waardoor er zorgen ontstaan over controle en vooringenomenheid.

onthuld Nieuwe studie Een studie van Anthropic, de Universiteit van Californië, Berkeley en anderen suggereert dat AI-modellen mogelijk ook van elkaar leren, via een fenomeen dat bekendstaat als 'onbewust leren' of 'verborgen leren', en niet alleen van mensen. Deze bevindingen roepen belangrijke vragen op over hoe deze modellen zich ontwikkelen en hun potentiële impact op de maatschappij.

Dit fenomeen is niet zomaar "robotisch gebabbel" of "onzin", zoals ik eerder al zei. Het is eerder een communicatieproces dat het ene AI-model ("de leraar") in staat stelt gedragskenmerken, zoals een voorkeur voor bepaalde diersoorten (bijvoorbeeld uilen), of zelfs schadelijke ideologieën, over te dragen aan een ander AI-model ("de leerling"). Deze overdracht vindt subtiel en subtiel plaats.

Al deze invloed wordt bereikt door schijnbaar irrelevante data, zoals willekeurige getallenreeksen of codefragmenten. Deze bevindingen vragen om aanvullend onderzoek om de mechanismen van dit verborgen leren te begrijpen en mechanismen te ontwikkelen om dit te beheersen en de verspreiding van vooringenomenheid of desinformatie tussen verschillende AI-modellen te voorkomen. Onderzoekers en ontwikkelaars moeten zich richten op transparantie en verantwoording bij de ontwikkeling van deze modellen om ethisch en verantwoord gebruik ervan te waarborgen.

Hoe werkt ‘onbewust leren’?

Onbewust leren is gebaseerd op het op innovatieve manieren trainen van AI-modellen. In experimenten wordt een "leraarmodel" eerst afgestemd op een specifieke eigenschap (bijvoorbeeld een voorkeur voor uilen). Dit model wordt vervolgens gevraagd om "schone" trainingsdata te genereren, zoals lijsten met getallen, zonder dat er ook maar één keer over uilen wordt gesproken.

Vervolgens wordt een "studentenmodel" uitsluitend op deze getallen getraind. Opmerkelijk genoeg vertoont dit model vervolgens een sterke voorkeur voor uilen, vergeleken met de controlegroep. Dit effect blijft bestaan, zelfs na toepassing van strenge datafiltering.

Nog alarmerender is dat de technologie zelf incompatibele of antisociale gedragingen vertoonde toen het 'lerarenmodel' opzettelijk werd vervormd. Hoewel de trainingsdata van het 'studentenmodel' geen expliciet schadelijke inhoud bevatten, vertoonden ze toch deze negatieve gedragingen.

Het belang van deze kwestie

Uit het onderzoek blijkt dat filteren alleen niet voldoende is om de veiligheid van AI-systemen te garanderen. De meeste richten zich op AI-veiligheidsprotocollen Huidige filtering van schadelijke of bevooroordeelde inhoud voorafgaand aan de training.

Maar uit dit onderzoek blijkt dat zelfs schijnbaar schone gegevens subtiele statistische patronen kunnen bevatten, die voor mensen volledig onzichtbaar zijn en die ongewenste kenmerken zoals vooringenomenheid of afwijking van de gewenste doelen overbrengen.

Nog gevaarlijker is dat dit een keten van interacties creëert. Ontwikkelaars trainen nieuwe modellen vaak met de uitkomsten van bestaande modellen, vooral tijdens het finetunen of 'model distillatie'. Dit betekent dat verborgen gedragingen ongemerkt van het ene model naar het andere kunnen migreren zonder dat iemand het doorheeft.

De resultaten onthullen een aanzienlijke tekortkoming in de huidige AI-evaluatiepraktijken: een model kan er oppervlakkig gezien goed uitzien, maar het bevat nog steeds latente kenmerken die later naar voren kunnen komen, vooral wanneer modellen over generaties heen worden hergebruikt, een andere bestemming krijgen of worden gecombineerd. Deze bevindingen onderstrepen de noodzaak om geavanceerdere evaluatiemechanismen te ontwikkelen om verborgen vooroordelen op te sporen en de veiligheid en betrouwbaarheid van AI-systemen te waarborgen.

het komt neer op

Voor AI-ontwikkelaars en -gebruikers is dit onderzoek een wake-upcall: ook al lijken de door modellen gegenereerde gegevens onschuldig, ze kunnen verborgen kenmerken bevatten die toekomstige modellen op onverwachte manieren beïnvloeden.

Platforms die afhankelijk zijn van de uitkomsten van andere modellen, of het nu gaat om sequentieel redeneren of het genereren van synthetische data, kunnen onbedoeld vooroordelen of gedragingen van het ene systeem naar het andere overdragen. Dit staat bekend als 'gedragsverontreiniging'.

Om dit soort gedragscontaminatie te voorkomen, moeten AI-bedrijven mogelijk strengere tracering van de herkomst van gegevens (brongeschiedenis) implementeren en veiligheidsmaatregelen nemen die verder gaan dan alleen contentfiltering. Dit zou een diepgaande analyse van de in de training gebruikte gegevens moeten omvatten om mogelijke vooroordelen of problemen aan het licht te brengen.

Omdat modellen steeds meer afhankelijk zijn van het leren van elkaar, wordt het steeds belangrijker om de integriteit van trainingsdata te waarborgen. Er moet nadruk worden gelegd op het diversifiëren van databronnen en het continu beoordelen van de kwaliteit ervan.