Wat als u geen trainingsgegevens meer hebt voor uw AI-model?

De snelle vooruitgang op het gebied van kunstmatige intelligentie hangt vooral af van de beschikbaarheid van nauwkeurige en grootschalige trainingsgegevens. Naarmate kunstmatige intelligentie steeds meer in verschillende sectoren wordt toegepast, lopen veel bedrijven tegen uitdagingen aan die te maken hebben met een gebrek aan beschikbare trainingsgegevens. Dit kan van invloed zijn op de kwaliteit en effectiviteit van de intelligente modellen die ze ontwikkelen. Hoe kunnen we AI-systemen blijven trainen en ontwikkelen ondanks dit tekort?

Het lijkt misschien alsof er heel veel data op het internet te vinden is, maar AI heeft de meeste open bronnen al in beslag genomen. Dit betekent echter niet dat de vooruitgang stopt. Er zijn nieuwe strategieën beschikbaar om de datakloof te dichten, zoals het genereren van synthetische data, het verzamelen van gepersonaliseerde data en het op innovatieve manieren gebruiken van ongestructureerde data. In dit artikel bespreken we deze innovatieve oplossingen en hoe ze de ontwikkeling van AI kunnen ondersteunen, zodat AI steeds betere prestaties en meer waarde voor gebruikers oplevert.

Wat als u geen trainingsgegevens meer hebt voor uw AI-model?

1. Plusgegevens worden altijd online toegevoegd.

Kortom, zegt het Artificial Intelligence Research Institute Tijdperk De hoogwaardige gegevens waarop AI kan worden getraind, kunnen in 2026 opraken.

Het sleutelwoord daar is ‘kan’. De hoeveelheid data die aan het internet wordt toegevoegd neemt elk jaar toe, dus vóór 2026 kan er iets drastisch veranderen. Dit is echter nog steeds een redelijke schatting; hoe dan ook zullen AI-systemen op een gegeven moment zonder goede data komen te zitten.

We moeten echter niet vergeten dat er jaarlijks ongeveer 147 zettabytes aan gegevens online worden toegevoegd (volgens... Exploderende onderwerpen). Slechts één zettabyte staat gelijk aan 1,000,000,000,000,000,000,000 bits aan gegevens. In reële termen zijn dat meer dan 30 miljard 4K-films (echt, maar ondoorgrondelijk). Het is een duizelingwekkende hoeveelheid informatie die AI moet doorzoeken.

Kunstmatige intelligentie verbruikt echter gegevens sneller dan de mensheid deze kan produceren...

2. AI kan gegevens van lage kwaliteit vergeten

Natuurlijk zijn niet alle 147 zettabytes aan gegevens goede gegevens. Er zit meer achter dan op het eerste gezicht lijkt. Maar er wordt geschat dat AI in 2050 ook taalkundige gegevens van lage kwaliteit zal verbruiken.

gemeld Reuters Photobucket, ooit een van 's werelds grootste fotoopslagplaatsen, is in gesprek om zijn enorme bibliotheek in licentie te geven aan AI-trainingsbedrijven. Foto's bevatten gegevens om modellen als DALL-E en Midjourney te trainen, maar zelfs die kunnen in 2060 opraken. Er is hier ook een groter probleem: Photobucket heeft foto's toegevoegd van sociale netwerkplatforms uit de jaren XNUMX, zoals Myspace, wat betekent dat ze niet zo hoog zijn als de huidige. fotografie. Dit leidt tot gegevens van lage kwaliteit.

Photobucket is niet de enige. In februari 2024 sloot Google een deal met Reddit, waardoor de zoekgigant de gebruikersgegevens van het sociale-mediaplatform kon gebruiken om kunstmatige intelligentie te trainen. Andere sociale netwerkplatforms verstrekken ook gebruikersgegevens voor AI-trainingsdoeleinden; Sommigen gebruiken het om interne AI-modellen te trainen, zoals Meta's Llama.

Hoewel sommige informatie uit gegevens van lage kwaliteit kan worden gehaald, ontwikkelt Microsoft naar verluidt een manier waarop AI gegevens selectief kan ‘negeren’. In de eerste plaats zal deze oplossing worden gebruikt voor kwesties op het gebied van intellectueel eigendom, maar het kan ook betekenen dat tools kunnen vergeten wat ze hebben geleerd van datasets van lage kwaliteit.

We kunnen AI meer data voeden zonder al te selectief te zijn; Deze AI-systemen kunnen vervolgens kiezen wat het nuttigst is om van te leren.

3. Spraakherkenning ontgrendelt de gegevens die beschikbaar zijn in video en podcasts

De gegevens die tot nu toe aan AI-tools zijn toegevoerd, bestonden grotendeels uit tekst en, in mindere mate, uit afbeeldingen. Dit zal ongetwijfeld veranderen, en waarschijnlijk al, omdat spraakherkenningssoftware ervoor zal zorgen dat de overvloed aan beschikbare video's en podcasts ook kunstmatige intelligentie kan trainen.

Het is vermeldenswaard dat OpenAI het open source neurale netwerk voor automatische spraakherkenning (ASR) heeft ontwikkeld. Fluisteren, waarbij gebruik wordt gemaakt van 680.000 uur aan meertalige, multitasking-gegevens. OpenAI voerde vervolgens meer dan een miljoen uur aan informatie uit YouTube-video's in zijn grote taalmodel, GPT-4.

Dit is een ideaal model voor andere AI-systemen, die spraakherkenning gebruiken om video en audio uit vele bronnen te transcriberen en die gegevens door hun eigen AI-modellen te laten lopen.

لـ StatistaElke minuut wordt er meer dan 500 uur aan video naar YouTube geüpload, een aantal dat sinds 2019 redelijk constant is gebleven. En dan hebben we het nog niet eens over andere video- en audioplatforms zoals Dailymotion en Podbean. Als AI zijn aandacht kan richten op nieuwe datasets als deze, moet er nog steeds een enorme hoeveelheid informatie worden geëxtraheerd.

4. AI is grotendeels bij de Engelse taal gebleven

Dat is niet alles wat we van Whisper kunnen leren. OpenAI heeft het model getraind met behulp van 117000 uur aan niet-Engelse audiogegevens. Dit is vooral interessant omdat veel AI-systemen voornamelijk zijn getraind in het gebruik van de Engelse taal of het bekijken van andere culturen door een westerse lens.

In wezen zijn de meeste tools gebonden aan de cultuur van hun makers.

Neem ChatGPT als voorbeeld. Kort na de release in 2022,... Jill Walker Rettberg, hoogleraar digitale cultuur aan de Universiteit van Bergen, Noorwegen, experimenteerde met ChatGPT en concludeerde het volgende:

“ChatGPT weet niet veel over de Noorse cultuur. Of beter gezegd, alles wat hij weet over de Noorse cultuur wordt verondersteld grotendeels uit Engelse bronnen te zijn geleerd… ChatGPT is duidelijk verenigbaar met de Amerikaanse waarden en wetten. In veel gevallen liggen deze dicht bij de Noorse en Europese waarden, maar dit is niet altijd het geval.

Daarom kunnen AI-systemen zich ontwikkelen zodat een groter aantal multinationale mensen ermee kunnen communiceren, of meer diverse talen en culturen kunnen gebruiken om dergelijke systemen te trainen. Momenteel zijn veel AI-modellen beperkt tot één enkele bibliotheek; Het zou kunnen groeien als het de sleutels zou krijgen van bibliotheken over de hele wereld.

5. Uitgeverijen kunnen helpen bij de ontwikkeling van kunstmatige intelligentie.

Intellectueel eigendom is uiteraard een groot probleem, maar sommige uitgevers kunnen AI helpen vooruit te komen door licentieovereenkomsten aan te gaan. Dit betekent dat tools hoogwaardige, dat wil zeggen betrouwbare, gegevens uit boeken moeten worden geboden in plaats van informatie van lage kwaliteit uit online bronnen.

Meta, de eigenaar van Facebook, Instagram en Whatsapp, zou zelfs hebben overwogen om Simon & Schuster, een van de ‘Big Five’-uitgeverijen, over te nemen. Het idee was om door het bedrijf gepubliceerde literatuur te gebruiken om Meta's AI te trainen. De deal ging uiteindelijk niet door, misschien vanwege het ethische grijze gebied van het bedrijf dat IP’s verwerkt zonder voorafgaande toestemming van de schrijvers.

Een andere optie die wordt overwogen, is het kopen van individuele licentierechten voor nieuwe titels. Dit zou voor makers tot grote zorgen kunnen leiden, maar het blijft een interessante manier om AI-tools te ontwikkelen als we geen bruikbare data meer hebben.

6. Synthetische data hebben de toekomst

Alle andere oplossingen zijn nog steeds beperkt, maar er is één optie die ervoor zou kunnen zorgen dat AI in de toekomst tot bloei kan komen: synthetische data. De zaak wordt al onderzocht als een zeer reële mogelijkheid.

Wat zijn synthetische gegevens? Het zijn gegevens die zijn gegenereerd door kunstmatige intelligentie; Net zoals mensen gegevens creëren, zal deze methode ervoor zorgen dat AI gegevens creëert voor trainingsdoeleinden.

AI kan zelfs overtuigende deepfake-video's maken. Deze deepfake-video kan worden teruggekoppeld naar de AI, zodat deze kan leren van wat in wezen een fictief scenario is. Dit is tenslotte een van de belangrijkste manieren waarop mensen leren: we lezen of kijken iets om de wereld om ons heen te begrijpen.

AI-systemen hebben waarschijnlijk al kunstmatige informatie verbruikt. Deepfakes hebben misleidende en valse informatie online verspreid, dus wanneer AI-systemen online-inhoud scannen, ligt het voor de hand dat sommigen mogelijk zijn blootgesteld aan nep-inhoud.

Ja, er zit een sinistere kant aan. Het kan bovendien AI-systemen beschadigen of beperken, waardoor de fouten die deze tools maken, worden versterkt en verspreid. Bedrijven werken eraan om het probleem op te lossen; De uitdrukking ‘AI’s leren van elkaar en maken fouten’ is echter een plotpunt voor veel sciencefiction-nachtmerriescenario’s.

7. Maak beter gebruik van kunstmatige intelligentie

Hulpmiddelen voor kunstmatige intelligentie zijn controversieel. Er zitten veel nadelen aan, maar critici negeren de voordelen ervan. Bijvoorbeeld het Audit- en Consultingnetwerk PwC [PDF] Kunstmatige intelligentie zou tegen 15.7 tot 2030 biljoen dollar kunnen bijdragen aan de wereldeconomie.

Bovendien wordt AI al over de hele wereld gebruikt. Je hebt het vandaag waarschijnlijk in een of andere vorm gebruikt, misschien zonder het zelfs maar te beseffen. Nu de geest uit de fles is, is het de sleutel om deze te trainen op betrouwbare, hoogwaardige gegevens, zodat we deze op de juiste manier kunnen benutten.

Kunstmatige intelligentie heeft zijn voor- en nadelen. Er is zeker een balans te vinden.

AI-hulpmiddelen worden geconfronteerd met steeds grotere uitdagingen vanwege het gebrek aan beschikbare trainingsgegevens, wat hun vooruitgang en ontwikkeling dreigt te ondermijnen. Om deze uitdaging het hoofd te bieden, worden innovatieve oplossingen ingezet, zoals het gebruik van synthetische data, het benutten van ongeleid leren en het stimuleren van samenwerking tussen instellingen om data te delen. Deze oplossingen leveren nieuwe gegevensbronnen op en zorgen ervoor dat intelligente modellen voortdurend efficiënt en effectief worden verbeterd en ontwikkeld.