AI-startup presteert beter dan Gemini 3 in belangrijke inferentietest

Sinds het verscheen Tweeling 3 Voor het eerst weet hij zijn toppositie te behouden. LMArena-klassementDeze lijst is een collectieve ranglijst waarin duizenden echte gebruikers modellen met elkaar vergelijken. Kunstmatige intelligentie Ze testen elkaar rechtstreeks op een breed scala aan taken en stemmen op het beste antwoord. Maar als het gaat om het behalen van de strengste inferentiecriteria, is er een nieuwe rijzende ster, die Google al heeft overtroffen – en dat zonder een eigen model te trainen.

Een startup met zes medewerkers genaamd Poetiq zegt dat het de eerste plaats heeft behaald in ARC-AGI-2 Semi-Special Test KitDit is een extreem moeilijke inferentie-uitdaging, bedacht door AI-onderzoeker François Chollet. Het systeem van de startup behaalde een score van 54 procent, waarmee het de eerder door Google gerapporteerde score van ongeveer 45 procent voor Gemini 3 Deep Think overtrof.

Om dat in perspectief te plaatsen: de meeste AI-modellen scoorden zes maanden geleden nog onder de 5 procent op deze benchmark. Onderzoekers gingen er algemeen van uit dat het jaren zou duren om de 50 procent te doorbreken.

En het meest verrassende: de doorbraak van Poetiq werd niet ondersteund door een nieuw grensverleggend model, maar door een slimmere manier om bestaande modellen te organiseren.

Hoe heeft Poetiq dit voor elkaar gekregen?

In plaats van een enorme converter helemaal vanaf nul te bouwen, ontwikkelde Poetiq wat zij een metasysteem noemen; in wezen een AI-controller die de output van elk model dat erop wordt aangesloten, overziet, beoordeelt en verbetert. Voor hun ARC-AGI-2-project gebruikte het team de Gemini 3 Pro als basismodel.

Poetiq beschrijft het systeem als een strak gecontroleerde optimalisatielus: Creëren > Kritiek geven > Verbeteren > Controleren.

Dit maakt het zo bijzonder:

Geen omscholing vereist: Het systeem past zich binnen enkele uren aan nieuwe modellen aan.
Het is volledig gebaseerd op grote, kant-en-klare taalmodellen: Geen aangepaste bewerking mogelijk
lagere prijs of goedkoper: Google's DeepThink kost naar verluidt 77 dollar per taak; het systeem van Poetiq kost ongeveer 30 dollar.
Open source: De oplossing is openbaar beschikbaar en verifieerbaar.
Zelfcontrole: Het systeem evalueert zijn eigen antwoorden voordat het het eindresultaat teruggeeft.

على website Volgens het Poetiq-team werkt deze aanpak voor het bedrijf door Plus te onttrekken aan de inferentiekracht van bestaande, grote taalmodellen – en niet door de rekenkracht geforceerd op te schalen.

Waarom is de ARC-AGI-2-test belangrijk?

Terwijl de meeste gestandaardiseerde tests beperkte vaardigheden meten, zoals programmeren of wiskunde, is ARC-AGI-2 ontworpen om iets diepers te testen: patroonherkenning, meten, abstract redeneren en het soort generalisatie dat mensen in hun vroege jeugd leren.

Het is opzettelijk moeilijk en opmerkelijk onvriendelijk voor de huidige grote taalmodellen (LLM's). Zelfs veel geavanceerde modellen falen er spectaculair in.

Om die reden was de sprong van een percentage van minder dan tien procent naar 54 procent in een half jaar tijd verrassend. Dit duidt op vooruitgang in de inferentiemethoden, en niet alleen op de omvang van het oorspronkelijke model.

Het Poetiq-resultaat is echter specifiek van toepassing op de semi-privé testgroep, die niet volledig openbaar toegankelijk is. Op de website van het bedrijf staat dat het resultaat is gevalideerd door de benchmarkorganisatie, maar onafhankelijke replicatie door derden is nog in behandeling. Dit is significant voor een benchmarktest met een dergelijke impact.

De volgende doorbraak komt wellicht niet van grotere modellen, zoals het werk van Poetiq aantoont aan een groeiende trend in kunstmatige intelligentie: vooruitgang vereist niet altijd miljarden dollars aan infrastructuur of een enorm onderzoekslaboratorium.

Als dergelijke systemen erin slagen verder te gaan dan standaardparameters en planning, programmering, onderzoek of zelfs besluitvorming in de praktijk te omvatten, zouden ze de ontwikkeling van kunstmatige intelligentie radicaal kunnen veranderen. In plaats van te wachten op de volgende supercomputer, zouden bedrijven zich kunnen richten op het bouwen van samengestelde intelligentie die de huidige modellen slimmer, goedkoper en consistenter maakt.

Conclusie

Poetiq heeft een open-source oplossing voor ARC-AGI uitgebracht, zodat onderzoekers de resultaten ervan kunnen testen, uitbreiden of zelfs ter discussie stellen. De standaard bevat een verborgen testset, en de praktijk wijst uit dat de resultaten kunnen veranderen zodra een aanzienlijk aantal mensen onafhankelijke beoordelingen uitvoert.

Als de cijfers van Poetiq kloppen, zou dit een keerpunt kunnen betekenen in het onderzoek naar AI-inferentie. Een team van zes heeft mogelijk aangetoond dat modelorganisatie kan wedijveren met, of zelfs beter kan presteren dan, het trainen van veel grotere modellen. Poetiq heeft bewezen dat je geen gigantisch lab nodig hebt om te winnen.

Gemini