Ontdek het zelf: de nieuwe mogelijkheden van ChatGPT voor het genereren van afbeeldingen zijn verbluffend

OpenAI heeft een enorme update uitgebracht voor de mogelijkheden van ChatGPT om afbeeldingen te genereren. Het is een verbluffende update die de werkelijkheid opnieuw definieert. Deze ontwikkeling betekent een kwalitatieve sprong voorwaarts op het gebied van beeldgeneratie met behulp van kunstmatige intelligentie.

Ik verspil uw tijd niet met getallen, modelgroottes of hoeveel GPU-uren het nieuwe model gebruikt. Ik laat u eenvoudigweg zien wat deze update kan doen en hoe deze zich verhoudt tot het vorige DALL-E-model.

7. handen en vingers

Close-up van een persoon die een E-mineurakkoord op een gitaar speelt; zijn vingers drukken op de snaren met een geringe scherptediepte.

We waren verbijsterd toen de technologie voor het genereren van AI-beelden voor het eerst populair werd. Toen... keken we eens goed. Het onderscheidende kenmerk van de AI-afbeelding is de vreemde anatomie van de hand en vingers. Wat is er nu beter om modellen te testen dan ze te vragen een foto te maken van een gitaarsnaar?

Om het beste voor het laatst te bewaren, heb ik eerst het originele DALL-E-model geprobeerd en daarna de nieuwe imagegenerator die in het ChatGPT 4o-model is ingebouwd.

De afbeelding hierboven is van DALL-E. Ondanks de tekortkomingen van de DALL-E, ging hij behoorlijk om met vingers en algemene anatomie. Maar de snaar zelf...is dat niet. De handpositie is te hoog op de toets om e-mineur te spelen. Als je een beetje inzoomt, zie je dat de gitaar meer dan zeven snaren heeft. Ook de afstand tussen de snaren is onregelmatig.

Met dat in gedachten gaan we verder met ChatGPT 4o.

Ik had kunnen zeggen dat ik een grapje maakte en dat dit een oude foto was van toen ik gitaar speelde. ChatGPT 4o is zo goed. Zes snaren, gelijkmatig verdeeld, en het akkoord is eigenlijk E mineur. Ik ben onder de indruk.

6. historische figuren

Albert Einstein eet een ijsje in Central Park, gekleed in een casual shirt en bretels.

Nadat we hadden geëxperimenteerd met het genereren van afbeeldingen van verschillende zaken, besloten we nu om afbeeldingen van historische figuren te genereren. Omdat zij zich niet beledigd zouden voelen, zou het leuk zijn om ze in een moderne setting te zien. Laten we beginnen met het proberen van DALL-E 2 en ChatGPT 4 om een afbeelding van Einstein te genereren.

Het resultaat van DALL-E 2 was teleurstellend, omdat het mij vooraf had gewaarschuwd dat het geen foto van Einstein zelf kon gebruiken, maar een foto van iemand die “heel erg op hem leek.” De beelden van DALL-E 2 hebben een realistische, cartoonachtige stijl, wat hier duidelijk te zien is. Het San Remo-gebouw op de achtergrond doet vermoeden dat deze foto in Central Park is genomen, maar dat is dan ook de enige prestatie hier.

Laten we nu verder gaan met ChatGPT 4o.

Door een zwart-witfilter op deze foto toe te passen, kan ik je ervan overtuigen dat het een echte vintagefoto is. De crème op het hoorntje ziet er perfect romig uit, Einstein verschijnt in zijn karakteristieke rustige stijl en het San Remo-gebouw is nog steeds aanwezig op de achtergrond. Alles ziet er perfect uit. ChatGPT 4o heeft geweldig werk geleverd met deze afbeelding.

5. fictieve personages

Een figuur die lijkt op Lord Sith roept een taxi aan op George Square in Glasgow, met lichte regen en verkeerslichten op de achtergrond.

Tot nu toe hebben we gezien dat ChatGPT goed is in het tekenen van historische figuren. Omdat gezichten en mensen nog steeds de beste manieren zijn om de mogelijkheden van AI te testen, proberen we Plus.

Ik heb het woord ‘vergelijkbaar’ gebruikt om de chatbot zover te krijgen dat hij met mij zou samenwerken, zonder dat ik met een auteursrechtclaim te maken zou krijgen. Het DALL-E-resultaat was goed. Het personage doet je echt denken aan een Sith Lord en de rest van de elementen zijn behoorlijk accuraat.

Er is niets specifieks aan dat op een cartoon lijkt, maar het ziet er ook niet echt uit. Wilt u realisme? Bekijk wat ChatGPT 4o produceerde met dezelfde prompt:

Ik hou van de sfeer: de belichting, de mist en de grimmige aanwezigheid van de Sith Lord. Alles is aanwezig. Het enige probleem is dat de Heer van het Duister op straat staat en een taxi belt, terwijl hij met zijn gezicht naar... de stoep staat. Ook staat er op het taxibord “TAXL”.

Laten we van toekomstfictie naar historische fictie gaan. Zoiets als dit:

Een personage dat lijkt op Geralt van Rivia doet boodschappen in een moderne supermarkt. Hij duwt een winkelwagentje en kijkt fronsend naar de blikken.

Helemaal niet slecht. De afbeelding heeft nog steeds die kunstmatige, cartoonachtige uitstraling en de tekst op de ontbijtgranendozen is, zoals te verwachten, volkomen onbegrijpelijk.

ChatGPT 4o verwierp de claim aanvankelijk vanwege auteursrechten, maar slaagde erin het te doen toen ik “vergelijkbaar met” verving door “vergelijkbaar met”. Kijk:

Ik ben sprakeloos. ChatGPT's interpretatie van Geralt is, net als die van de meeste mensen, eigenlijk gewoon Henry Cavill. Het is niet de videogameversie, maar hij heeft het wel goed gedaan. De frons is volkomen juist en de rest van de scène ziet er normaal uit.

Dit zou zo een scène uit een vreemde reclameset kunnen zijn. En ja, ik heb boeken gelezen. The Witcher Voordat het een serie werd.

4. animatie

Een cartoon van een piratenkapitein in een lange rode jas en met een bionische arm, die lachend op het dek van een vliegend schip zit. Transparante achtergrond.

Bij het genereren van afbeeldingen bij OpenAI gaat het niet alleen om realisme. Hoewel DALL-E altijd een beetje smoothing toevoegt, ongeacht de invoer, besloot ik om beide modellen in de volledige karikatuurmodus te zetten. De focus lag op het verbeteren van de kwaliteit van tekenfilms door het inzetten van geavanceerde kunstmatige intelligentietechnieken.

DALL·E heeft hier goed werk geleverd: het bedrijf begreep zelfs de vraag naar een transparante achtergrond. enigszins. Wat we krijgen is het klassieke grijs-witte schaakbordpatroon dat normaal gesproken transparantie betekent... behalve dat het hier in de afbeelding is verwerkt. Het is dus helemaal niet transparant.

Het is bovendien ironisch dat de biologische hand van de hacker, die door AI wordt gegenereerd, vier vingers heeft, terwijl de elektronische hand er vijf heeft. Heeft hij misschien de verkeerde arm met chroom bedekt?

ChatGPT 4o ziet er duidelijker en doelbewuster uit. De kleurstijl is wisselend - of het mooier is of niet, is een persoonlijke kwestie - maar het lijkt er duidelijk op dat een kunstenaar het zo heeft geschilderd. De graphics van ChatGPT zijn van hoge kwaliteit en gedetailleerd.

De achtergrond is ook al transparant. Je kunt het op een T-shirt plakken, uitprinten of er zelfs meteen een WhatsApp-sticker van maken.

3. Spiegels en reflecties

Moderne badkamerwastafel met tandenborstel en scheermes op het aanrecht, zowel zichtbaar in de spiegel als in het echt - de verlichting is zacht en gelijkmatig. De nauwkeurigheid van reflecties in door AI gegenereerde beelden vormt een voortdurende uitdaging.

Spiegels reflecteren beelden, en reflecties hebben ruimtelijke logica nodig om er natuurlijk uit te zien. Ik maakte een inzending waarvan ik wist dat DALL-E erover zou struikelen. Het genereren van realistische beelden met nauwkeurige reflecties is een van de grootste uitdagingen voor kunstmatige intelligentie.

Zoals verwacht. Er is iets dat probeert de weerspiegeling van de kraan in de spiegel voor te stellen, maar het is te lang. De tandenborstel drijft in de wasbak en werpt geen reflectie. DALL-E heeft veel moeite gestoken in dit voorbeeld.

Het nieuwere model laat de afbeelding er veel realistischer uitzien, net als een echte foto. De weerspiegeling van de kraan is een beetje scheef, maar acceptabel. En dan is er nog de tandenborstel, die weliswaar een weerspiegeling heeft, maar die in de fysieke wereld niet bestaat, net als een omgekeerde vampier.

Er is hier geen duidelijke winnaar aan te wijzen. De AI-resultaten waren inconsistent, dus ik gaf ze allebei nog een kans met iets ambitieuzers:

Een vrouw staat voor een grote spiegel in een zonnige slaapkamer. Haar kleding en houding worden perfect weerspiegeld. Ook het raam achter haar is duidelijk te zien.

…ik wil dit voorbeeld niet eens met een analyse eren. Mensen, als jullie DALL-E in een kwaad daglicht willen stellen, voeg dan gewoon het woord “spiegel” toe aan jullie inzending. Laten we verder gaan.

Zoals verwacht ziet ChatGPT 4o er realistischer uit – maar misschien een beetje surrealistisch deze keer? De houding en kleding van de vrouw worden weerspiegeld, maar slechts gedeeltelijk, als een XNUMXD Photoshop-effect. Ook de reflectiehoeken kloppen niet. Kunstmatige intelligentie kan nog steeds niet overweg met ruimtelijke logica. Het begrijpen van XNUMXD-ruimte en reflecties lijkt een grote uitdaging voor AI te zijn.

2. Auto's en straten

Een Ford GT uit 2006 en een Peugeot 206 rijden rond het middaguur door het rode licht op Wall Street in New York.

Ik ben een autoliefhebber. Toen de eerste AI-software voor het genereren van beelden uitkwam, probeerde ik als eerste afbeeldingen van auto's te maken. De resultaten waren op dat moment niet goed, maar toen het nieuwe model uitkwam, moest ik het opnieuw proberen.

Hier toont DALL-E opnieuw zijn steeds verontrustender cartooneske esthetiek. De Peugeot staat op de stoep, de verkeerslichten die ik heb aangevraagd staan op gebouwen gericht en de kentekens zijn allemaal onbegrijpelijk.

De resultaten van ChatGPT 4o zijn veel beter. De auto's zijn correct afgebeeld, zelfs de wieldoppen van Peugeot zijn zeer nauwkeurig en passen bij het tijdperk. Dit soort details zijn niet toevallig. Het wordt nog beter:

Ik zou deze afbeelding daadwerkelijk als achtergrond voor mijn telefoon kunnen gebruiken. Belichting, compositie, reflecties – alles ziet er perfect uit. Afgezien van een enkele lege plek in de straat, zou dit voor een echte foto kunnen doorgaan.

1. Teksten en berichten

Een handgeschreven brief op oud papier in cursief schrift, naast een vulpen en een inktpot.

Ten slotte pakken we het zwakke punt van elke beeldgenerator aan. De meeste AI-afbeeldingsgenerators hebben moeite met het produceren van correcte tekst. Nu hebt u in de voorgaande voorbeelden genoeg onzin van DALL-E gezien om te weten wat ik bedoel. Het genereren van tekst uit afbeeldingen is een grote uitdaging voor ontwikkelaars van deze technologieën.

Om het interessanter en consistenter te maken, voegde ik toe dat de brief de tekst van de brief van Koning Terenas aan Arthas uit Warcraft III moest bevatten.

DALL-E deed wat het het beste kon met tekst: het omzetten in onduidelijke, onbegrijpelijke tekst. Hij slaagde erin om een aantal woorden correct te schrijven en de algehele sfeer ziet er goed uit – de vulpen en de inktpot zien er goed uit. Maar de nauwkeurigheid van de tekstgeneratie is nog steeds beperkt.

ChatGPT 4o beheerst het – elk woord, in duidelijk, cursief schrift. ideaal. Vergeleken met DALL-E is dit een enorme stap voorwaarts. Goed gedaan OpenAI. Deze ontwikkeling laat zien hoe ver AI-technologieën zijn gevorderd in tekstgeneratie.

Technologieën voor AI-beeldgeneratie hebben een lange weg afgelegd, en dat is te zien. Het voelt alsof ChatGPT 4o het eerste model is dat echt de belichting, textuur en context onder de knie heeft. Dit vertegenwoordigt een grote vooruitgang op het gebied van AI-beeldgeneratie.

De enige echte vraag die nu nog overblijft is: hoe sterk zijn de beschermingsmaatregelen van ChatGPT? Ik heb zijn auteursrechtelijke beperkingen gemakkelijk omzeild. Hoe lang zal het duren voordat iemand ChatGPT jailbreakt en zelf content kan creëren met behulp van dit ongelooflijk capabele model? Deze mogelijkheid roept vragen op over het verantwoord gebruik van AI-technologieën.

ChatGPT