Is de afwezigheid van Sora 2 in GPT-5 een enorme stap voorwaarts in AI-videotechnologie?

Kom op OpenAI, we hebben een stem nodig!

Het bedrijf bereidt zich voor OpenAI Om een nieuwe versie van zijn baanbrekende AI-aangedreven videomodel te lanceren, Sora, ergens dit kwartaal. Hoewel Sora revolutionair was bij de lancering, heeft het sindsdien terrein verloren aan de concurrentie. Google's Veo 3 zet nu de gouden standaard voor AI-videogeneratie.

Ik verwacht dat Sora 2 in de komende weken of maanden zal verschijnen, gezien de snelle release van GPT-5Net als GPT-4o is GPT-5 native multimodaal en kan het elk type invoer of uitvoer (inclusief video) verwerken en tegelijkertijd complexe inferentietaken uitvoeren die vergelijkbaar zijn met de modellen uit de “o”-serie.

Sora is nog steeds een krachtig platform. De storyboardfunctie is baanbrekend en abonnees kunnen ChatGPT Pro maakt clips tot 20 seconden lang. Maar het basismodel begint zijn leeftijd te tonen. De output kampt nog steeds met problemen met bewegingsbesturing, mist geluidsgeneratie en worstelt met het renderen van complexe physics – in tegenstelling tot de Veo 3, Kling 2.1 of MiniMax 2.

Zelfs op het gebied van sociale video ondervindt OpenAI nu concurrentie van vrijwel elk AI-platform, waaronder Meta en Grok و halverwege de reisOpenAI blijft echter 's werelds grootste AI-lab met aanzienlijke middelen – en ondanks Meta's recente talentaanwinsten – beschikt het over een sterk engineeringteam. Schrijf ze nog niet af.

Wat heeft OpenAI nodig om Sora concurrerend te maken?

Om te kunnen concurreren met Googles videomodel of opkomende Chinese concurrenten op het gebied van generatieve video-AI, moet OpenAI zijn multimediamogelijkheden maximaliseren en tegelijkertijd de functionaliteit van Sora uitbreiden. Een nauwere integratie met ChatGPT zou ook gunstig zijn. Hier zijn vijf belangrijke verbeteringen voor Sora 2:

1. Originele audiogeneratie: een essentiële vereiste waar niet van kan worden afgeweken

Als OpenAI wil concurreren met Google's Veo 3 op het gebied van AI-videogeneratie, moet Sora 2 zowel video als audio native en naadloos verwerken. Elk model dat geen audiogeneratie ondersteunt, begint met een duidelijke zwakte.

Momenteel produceert Sora alleen stille video's, wat een groot nadeel is, vooral omdat Veo 3 de mogelijkheid biedt om geluidseffecten, omgevingsgeluid en zelfs dialogen te genereren als een kernonderdeel van zijn functionaliteit. Het gaat niet alleen om het achteraf toevoegen van audio; het gaat om het daadwerkelijk integreren van video en audio.

Veo 3 kan lipsynchrone spraak produceren voor videopersonages in meerdere talen. Sora 2 vereist dezelfde ingebouwde audiogeneratie, van omgevingsgeluiden tot gesproken dialogen. Deze mogelijkheid is essentieel voor het creëren van realistische en boeiende videocontent.

Als OpenAI volledige multimediageneratie (video + audio) kan leveren met videolengtes van 20 seconden of langer, zal het niet alleen Veo 3 inhalen, maar het zelfs volledig overtreffen op de markt voor AI-videogeneratie. Deze superioriteit zal het tot een leider maken in dit geavanceerde technologiegebied.

2. Verbeter de natuurkundige simulatie radicaal

Visuele realiteit gaat verder dan louter nauwkeurigheid; het is voornamelijk afhankelijk van fysica. De huidige Sora-uitvoer bevat vaak onnatuurlijke bewegingen of vervormde fysica: water tart de zwaartekracht, objecten verschuiven onvoorspelbaar of bewegingen die fundamenteel verkeerd lijken. Dit gebrek aan fysiek realisme vermindert de kwaliteit van de video en zorgt ervoor dat deze kunstmatig overkomt.

Google heeft met Veo 3 duidelijk prioriteit gegeven aan realistische, realistische fysica, en de resultaten spreken voor zich. Hun video's blinken uit in het simuleren van realistische fysica en dynamische bewegingen met minimale fouten. Het oudere Sora-model produceert daarentegen schokkerige bewegingen en inconsistente objectinteracties die de immersie verpesten. In Sora kun je bijvoorbeeld objecten extreem snel zien bewegen of zich gedragen op manieren die fysiek onmogelijk zijn.

Om te kunnen concurreren met Sora 2, moet het model het gedrag in de echte wereld beter begrijpen – van natuurlijke menselijke loop tot stuiterende ballen, van rookdynamiek tot vloeistofmechanica. OpenAI moet in essentie een physics engine in Sora integreren. Geloofwaardige bewegingen en interacties (geen vervormde ledematen of smeltende achtergronden meer) zullen een cruciale kloof met concurrenten dichten. Dit vereist aanzienlijke verbeteringen in de manier waarop het model de onderliggende fysica begrijpt en toepast.

3. Gespreksbegeleiding zou de norm moeten zijn.

Wat is het geheim van OpenAI? ChatGPT heeft al miljoenen mensen getraind om conversationeel met AI te communiceren. Sora 2 zou hierop moeten inspelen door videocreatie te laten voelen als een gesprek, niet alleen als programmeren.

In plaats van perfecte aanwijzingen of complexe interfacenavigatie te vereisen, zou het systeem natuurlijke heen-en-weer-optimalisatie moeten ondersteunen. Google beweegt al in deze richting: zijn Flow-tool gebruikt Gemini AI om intuïtieve navigatie in alledaagse taal mogelijk te maken.

Runway doet dit briljant met de chatmodus en nu ook met de nieuwe Aleph-tool waarmee Gen-4 elk afzonderlijk element vakkundig kan verbeteren. Luma's Dream Machine is vanaf de grond af aan gebouwd met dit concept in gedachten.

Stel je deze workflow voor: typ "middeleeuwse ridder op een berg", ontvang een conceptvideo en zeg dan simpelweg: "Maak er een zonsopgang van en voeg een draak toe" – en Sora werkt de scène direct bij. Deze conversatiegerichte aanpak verlaagt de drempels voor nieuwkomers en versnelt de workflows voor professionals.

De technologie bestaat. ChatGPT interpreteert al vervolgverzoeken en past de output dynamisch aan (zoals aangetoond met de native beeldintegratie in GPT-4os). Sora 2, volledig geïntegreerd met ChatGPT, zou ons in staat moeten stellen om via chat verbluffende video's te creëren. Deze gebruikerservaring zal de technische ondersteuning die de meeste concurrenten nog steeds nodig hebben, overtreffen.

Het stelt je ook in staat om eerst originele afbeeldingen te maken en vervolgens animaties te maken met Sora, vergelijkbaar met hoe Google werkt met Veo 3 in Gemini of de nieuwe Grok Imagine-functie. Deze integratie zal je mogelijkheden voor het creëren van visuele content aanzienlijk verbeteren.

4. Het belang van karakterconsistentie en -aanpassing in de volgende generatie Sora

Consistentie van personages en scènes is een andere cruciale verbetering om op te focussen bij het ontwikkelen van AI-modellen voor videogeneratie. Momenteel kan het genereren van twee clips met de zin "meisje in een rode jurk" twee totaal verschillende personages opleveren. Sora's output wijkt vaak af in stijl en detail tussen verschillende generatieruns, waardoor het bijna onmogelijk is om coherente verhalen met meerdere scènes of terugkerende personages te produceren.

Sora 2 zou de creatie van consistente personages, objecten en grafische stijlen mogelijk moeten maken in langere videoclips of series. Concurrenten bieden deze functie al, met Kling 2.1 die "consistente personages en filmische belichting direct vanuit tekstprompts" biedt. Google's Flow gaat nog een stap verder en maakt het mogelijk om aangepaste assets (portretten, specifieke grafische stijlen) als "componenten" te gebruiken in meerdere scènes.

OpenAI zou vergelijkbare mogelijkheden moeten bieden: het uploaden van referentiebeelden, het verfijnen van de stijl of de continuïteit van personages tussen scènes. Als Sora 2 een consistent personagebeeld gedurende een video kan behouden, kunnen makers echt verhalen vertellen in plaats van losse clips te produceren. Vooral als het native audio-integratie heeft voor clips langer dan 20 seconden.

Consistentie en personalisatie gaan hand in hand – of je nu een kunstenaar bent die een onderscheidende stijl hanteert of een filmmaker die behoefte heeft aan continuïteit in personages, Sora 2 biedt deze controle. Dit zorgt ervoor dat de visie van de gebruiker nauwkeuriger wordt gerealiseerd en opent de deur naar bredere creatieve mogelijkheden op het gebied van generatieve AI.

5. Diepe integratie met ChatGPT en wereldwijde beschikbaarheid

OpenAI moet zijn marktpositie versterken door Sora 2 volledig te integreren in ChatGPT en tegelijkertijd de brede toegankelijkheid ervan te garanderen. Terwijl Google's Veo verbinding maakt met een breder scala aan tools (waaronder Gemini-integratie, API-toegang en de Flow-app), zal Meta AI-gestuurde video in al zijn producten integreren.

OpenAI zou zich kunnen onderscheiden door Sora 2 een naadloze functie binnen ChatGPT te maken. Deze directe integratie zou miljoenen ChatGPT-gebruikers een AI-gestuurde videostudio bieden zonder van app te hoeven wisselen. Ze zouden de aanpak van Google kunnen volgen door een lage limiet te stellen aan het aantal video's dat per dag kan worden gemaakt, terwijl ze een premium abonnement aanbieden voor onbeperkte toegang, zoals momenteel het geval is met ChatGPT Pro en Sora.

Het optimaliseren van de mobiele ervaring is cruciaal. Tegenwoordig filmen, bewerken en publiceren makers volledig vanaf hun telefoon. Als Sora 2 draait binnen de mobiele ChatGPT-app (of een speciale Sora-app) met snelle creatieve mogelijkheden, zou het de creatormarkt op TikTok en Reels kunnen veroveren. Stel je voor dat je tegen je telefoon zegt: "ChatGPT, maak een video van 15 seconden van mij als cartoonastronaut die op Mars landt", en je ontvangt direct deelbare content.

Door Sora 2 alomtegenwoordig te maken (via ChatGPT, API's voor ontwikkelaars en mobiele platforms) kan OpenAI snel een gebruikersbasis opbouwen en tegelijkertijd essentiële feedback voor verbeteringen verzamelen.

Platforms zoals Leonardo, Freepik en Higgsfield maken al veelvuldig gebruik van Google's Veo 3 en Hailuo's MiniMax 2 omdat ze indrukwekkend, snel en beschikbaar via API zijn. OpenAI loopt achter op het gebied van creatieve AI door het gebrek aan updates voor Sora.

Conclusie

OpenAI heeft een reële kans om zijn leidende positie in generatieve AI terug te winnen door te leren van de successen van concurrenten. Momenteel is Google's Veo 3-model de gouden standaard dankzij zijn uitstekende mogelijkheden voor het genereren van authentieke spraak, het simuleren van realistische fysica en het accuraat reageren op tekstcommando's. Ondertussen blijven opkomende modellen zoals de Kling 2.1 en MiniMax 2 de grenzen van de mogelijkheden op dit gebied verleggen.

Runway boekt gestaag vooruitgang met nieuwe verbeteringen aan zijn Gen-4-model, dat een vergelijkbare fysicasimulatiekwaliteit biedt als Sora, maar beschikt over extra functies. Ondertussen richten andere bedrijven zoals Pika zich op het bedienen van de behoeften van ontwikkelaars, waardoor de druk op OpenAI toeneemt en het aandeel van OpenAI in deze waardevolle markt afneemt.

Sora 2 kan niet zomaar een simpele, incrementele verbetering zijn; het moet iedereen verbazen met zijn ongelofelijke mogelijkheden.

Het goede nieuws is dat OpenAI al over de bouwstenen voor succes beschikt: een krachtig taalmodel, een videomodel van de eerste generatie om op voort te bouwen en een enorme gebruikersbasis dankzij ChatGPT. Als OpenAI native stemgeneratie, realistische physics-simulatie, gemak van conversatie, consistente personageplaatsing in scènes en naadloze integratie met andere producten kan leveren, zal Sora 2 ongetwijfeld beter presteren dan Veo 3, Kling en alle andere concurrenten in deze branche.

Wanneer je al deze functies combineert, moet je niet verbaasd zijn als de volgende video die viraal gaat op sociale media, gemaakt is met Sora 2.

ChatGPT Sora