Nvidia helpt bij het oplossen van de grootste uitdagingen bij het genereren van AI-beelden.

Hoge vermogens- en rekenvereisten vormen een fundamenteel probleem bij AI, vooral bij taken zoals het maken van media. Op mobiele telefoons kunnen, wanneer u deze taken lokaal uitvoert, alleen een paar dure apparaten met krachtige processors deze functieset uitvoeren. Zelfs als het op grote schaal in de cloud wordt geïmplementeerd, is het een duur proces.

Nvidia heeft deze uitdaging mogelijk in stilte aangepakt in samenwerking met MIT en Tsinghua University. Het team heeft een hybride AI-beeldgeneratietool ontwikkeld genaamd HART (Hybrid Auto Transformer) combineert in essentie twee van de meest gebruikte AI-beeldgeneratietechnieken. Het resultaat is een zeer snelle tool met aanzienlijk lagere computervereisten.

Om je een idee te geven van hoe snel ze is, heb ik haar gevraagd om een afbeelding te maken van een papegaai die basgitaar speelt. Binnen ongeveer een seconde werd het volgende beeld teruggestuurd. Ik kon de voortgangsbalk nauwelijks bijhouden. Toen ik dezelfde invoer gebruikte met een formulier Google Afbeeldingen 3 Op Gemini duurde het ongeveer 9-10 seconden op een internetverbinding van 200 Mbps.

Een enorme sprong voorwaarts in het genereren van afbeeldingen met behulp van kunstmatige intelligentie

Toen AI-beelden steeds populairder werden, was diffusietechnologie de drijvende kracht hierachter. Het was de basis voor producten als OpenAI's Dall-E-beeldgenerator, Google's Imagen en Stable Diffusion. Deze methode produceert afbeeldingen met een hoge resolutie en veel details. Het genereren van AI-beelden vereist echter meerdere stappen, waardoor het proces traag en duur is qua rekenkracht.

De tweede aanpak die recentelijk aan populariteit heeft gewonnen, zijn zelfregressieve modellen. Deze werken op een vergelijkbare manier als chatbots en genereren afbeeldingen met behulp van pixelvoorspellingstechnologie. Deze methode is sneller, maar ook gevoeliger voor fouten bij het genereren van AI-beelden.

Een team van MIT heeft beide methoden gecombineerd in één pakket, genaamd HART. Deze techniek maakt gebruik van een autoregressief model om gecomprimeerde beeldelementen te voorspellen als discrete tokens, terwijl een klein diffusiemodel de rest doet om het kwaliteitsverlies te compenseren. Deze aanpak beperkt het aantal stappen van meer dan twintig tot slechts acht.

De experts achter HART beweren dat deze technologie “beelden genereert die de kwaliteit van geavanceerde diffusiemodellen evenaren of overtreffen, maar dat ongeveer negen keer sneller doen.” HART combineert een autoregressief model met een bereik van 700 miljoen parameters en een klein diffusiemodel dat 37 miljoen parameters aankan.

Het oplossen van de crisis in de computerkosten

Interessant genoeg kon deze hybride HART-tool beelden genereren die net zo goed waren als de modernste modellen met een capaciteit van 2 miljard parameters. Het allerbelangrijkste is dat HART deze prestatie heeft kunnen realiseren met een negen keer snellere beeldgeneratie en een besparing van 31% op de computerkracht.

Volgens het team zorgt de aanpak met lage rekenkracht ervoor dat HART probleemloos op telefoons en laptops kan draaien, wat een groot succes is. Tot nu toe hebben populaire producten als ChatGPT en Gemini een internetverbinding nodig om afbeeldingen te genereren, omdat de berekeningen op cloudservers plaatsvinden.

In de testvideo demonstreerde het team hoe het native draaide op een MSI-laptop met een Intel Core-serie processor en een Nvidia GeForce RTX grafische kaart. Dit is een combinatie die je in de meeste gaming-laptops op de markt vindt, zonder dat je er een fortuin aan hoeft uit te geven.

HART kan beelden met een beeldverhouding van 1:1 produceren met een resolutie van 1024 x 1024 pixels. Het detailniveau van deze afbeeldingen is indrukwekkend, net als de stilistische verscheidenheid en nauwkeurigheid van het tafereel. Tijdens het testen observeerde het team dat de hybride AI-tool drie tot zes keer sneller was en een ruim zeven keer hogere productiviteit opleverde.

De toekomstige mogelijkheden zijn spannend, vooral wanneer de beeldcapaciteiten van HART worden gecombineerd met taalmodellen. "In de toekomst zou men kunnen interacteren met een verenigd generatief model van visie en taal, misschien door het te vragen de tussenstappen te laten zien die nodig zijn om een meubelstuk in elkaar te zetten", aldus het MIT-team.

Ze zijn dit idee al aan het onderzoeken en zijn zelfs van plan om HART's aanpak voor audio- en videogeneratie te testen. Je kunt het proberen Webconfiguratiescherm MIT.

Enkele nadelen

Voordat we ingaan op de discussie over kwaliteit, moeten we opmerken dat HART nog een onderzoeksproject in de beginfase is. Op technisch vlak heeft het team een aantal obstakels aangewezen, zoals de toegenomen overhead tijdens het redeneren en trainen. Er wordt verwacht dat dit programma in de nabije toekomst grote ontwikkelingen zal doormaken.

Deze uitdagingen kunnen worden opgelost of over het hoofd worden gezien, omdat ze in het grotere geheel van de situatie klein zijn. Bovendien kunnen deze uitdagingen blijven bestaan zonder dat dit tot noemenswaardige prestatieproblemen leidt, gezien de enorme voordelen die HART biedt op het gebied van computerefficiëntie, snelheid en latentie.

Tijdens mijn korte ervaring met HART met behulp van tekstprompts, was ik verbaasd over hoe snel de afbeeldingen werden gegenereerd. Ik heb nog nooit een scenario meegemaakt waarin de freeware langer dan twee seconden nodig had om een afbeelding te creëren. Zelfs met opdrachten die drie alinea's besloegen (bijna 200 woorden) kon HART afbeeldingen genereren die perfect bij de beschrijving pasten.

De beschrijving was niet alleen nauwkeurig, de foto's waren ook erg gedetailleerd. HART heeft echter dezelfde nadelen als de standaard AI-beeldgeneratiesoftware. Hij heeft moeite met het maken van eenvoudige figuren en tekeningen, zoals eten, het uitlijnen van personages en het vastleggen van perspectief.

Realisme in de menselijke context is een gebied waar ik duidelijke tekortkomingen heb opgemerkt. Soms begreep het programma basisdingen verkeerd, bijvoorbeeld door een ring te verwarren met een ketting. Maar over het algemeen waren dit weinig fouten en werden ze ook verwacht. Veel AI-tools kunnen dit nog steeds niet goed, ondanks dat ze al een tijdje bestaan.

Over het algemeen ben ik erg enthousiast over het enorme potentieel van HART. Het zal interessant zijn om te zien of MIT en Nvidia er een product van maken of dat ze de hybride AI-beeldgeneratiemethode simpelweg in een bestaand product toepassen. Hoe dan ook, het is een glimp van een veelbelovende toekomst.